如何自建英语语料库 - 图文 联系客服

发布时间 : 星期五 文章如何自建英语语料库 - 图文更新完毕开始阅读

论自建小型学习者语料库的方法及作用

——以自建中学生英语写作语料库为例

曹鹤

北京市第三十一中

摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。

关键词:小型学习者语料库;英语写作;基础教育

自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。

一、语料库简介

建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

与国内英语教育关系最紧密的语料库是学习者语料库(learners corpora),即非母语学习者的口头和书面语料库,其中包括注有学习者拼写和语法差错标记以及改错提示的语料库. 根据Leech (1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。将这些语料经过计算机处理后形成的数据库即为学习者语料库。学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究语言学习过程以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一。国外建成的规模较大的学习者语料库是Cambridge Learner Corpus (CLC) 。国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的“中国英语专业语料库(100多万词)”和“中国学生英语口笔语语料库(200多万词)”以及规模更大的香港科技大学学习者语料库等。这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇、语法,特别是错误分析等进行研究。同时,可以将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据(李文中,1999)。

然而,尽管国内已经建成了上述大型学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,而且多是针对高级语言学习者,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生,特别是初级英语学习者的语言学习情况和语言特点。相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师——学生课堂话语档案库等(卫乃兴,2005)。个人教学语料库不仅能克服以上种种缺陷,而且有着自己巨大的优势。突出表现如下:第一、目标明确,语料收集针对性强,适合自己教学对象,能反映学生真实语言水平。第二、语料库具有开放性和时效性,能不断扩展及时更新。第三、本地机操作,经济、方便、快捷,检索语料时选择自由,易于突出语言的语域特征(谢家成,2003)。以下就以建立中学生写作语料库为例介绍建设小型学习者语料库的方法和使用。

二、小型学习者语料库的建设

(一)、可行性

人们一般认为构建语料库是一个花费大量人力物力的工程,实际上随着电脑技术的不断发展,现在个人建设教学语料库是完全可行的。语料库主要由两部分

组成:以电子文本形式存贮于计算机中的语料和管理检索这些语料的定位检索软件。现在许多功能强大、使用简便不需专门计算机知识的定位检索软件网上也能免费下载,教师只要善于收集语料、加以整理就可以建立一个实用的语料库。再加上个人教学语料库规模灵活,可边建设边使用,建库要求也不是很严格,这一切使得个人教学语料库的建设成为现实。

就中学生写作语料库而言,即小型学习者书面语语料库,是针对具体学生语言学习情况的最重要的语料库之一。教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况做出主观判断。从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。

(二)、建设方法

建立一个中学生写作语料库,一般需要以下几个步骤: 1、语料的收集和分类保存

中学生写作语料库的语料,顾名思义应来自学生在课堂或课外的写作产出,如课堂写作作业、考试中的作文和学生的英语日记等。书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档,计算机的普及可以让学生用电子文档的方式提交写作材料。相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。大部分书面语料的收集在日常教学中就可以完成。

语料收集并不是语言材料的简单堆砌,从一开始就应按一定原则进行科学分类。对于中学生写作语料库而言,分类可适当参考作文质量分为三个等级,优秀(Excellent)、良好(Good)、及格和及格以下(Around pass),并把不同种类的作文存入不同的文件夹。还应注意,以上述方式获得的语料是未经计算机处理的语料,称为生文本( raw text) 。存档时,应把每一个生文本(学生作文)作为一个独立文件单独命名存放。文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。可以用“年级+班级+学生姓名”来命名,如初三5班李红的作文,可以命名为“g1_c5_lihong”,并存入相对应等级的文件夹。同时,所有文件的格式应统一,建议使用纯文本(. txt)格式存档,这是几乎所有的语料库软件都能识别的格式。如图1和图2所示:

图1:分类文件夹

图2:所存生文本

2、语料的标注和赋码

存档之后,必须对生文本进行加工,使它更易于检索。首先应加注文本头,即在这些语料文件的开头第一行提供相关基本信息,如姓名、年级、班级、性别、文本字数等。信息要详细而且要有相关性,这样对以后的研究就更实用。通常的标注方法是将上述信息放入尖括号“ < > ”中。例如: < GRADE >=年级; =班级; < SEX > =性别; =年龄;等等。如下图:

图3:文本头标注

如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。此外,应对语料进行词性赋码。在进行词性赋码之前,应确定赋码方案。现在已经开发了多种词性赋码方案,如CLAWS自动词性赋码器等1。目前比较流行的词性赋码工具有AnnoTool和GoTagger软件(卫乃兴,李文中,濮建,2005) 。标注后的文件另存为纯文档格式,如下图:(但无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。)