国内外英语学习者语料库的发展:现状与方法

xujiajin

管理员
Staff member
从文章荟萃部分转贴philipw101的文章

国内外英语学习者语料库的发展:现状与方法

对外经济贸易大学/南京国际关系学院 王立非
南京国际关系学院 孙晓坤

摘要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支――基于学习者语料库的第二语言习得研究的理论与方法。
关键词:学习者语料库、第二语言习得研究、现状

一、引言
学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech 1998:3),因此,属于学习者中介语范畴。大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。

二、国外学习者语料库发展的现状
目前国际上对学习者语料库的研究大体上分为三个方面:1)学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设与相关的软件开发,由语言学和软件两个专业的人员合作完成。2)基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。3)学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。在语料库建设方面,目前,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。

表1 国外主要英语学习者书面语语料库
名称 语料类型 建设国 母语背景 容量(万词)
ICLE

书 研
面 究
语 性
比利时Louvain大学 多种母语 200
JEFLL 日本Meikai大学 日语 50
JPU 匈牙利Pecs大学 匈牙利语 40
MELD 美国Montclair州立大学 多种母语 5
PELCRA 波兰Lodz大学 波兰语 50
USE 瑞典Uppsala大学 瑞典语 100
LLC 书面语、
商业性 英国朗文出版公司 多种母语 1000
CLC 英国剑桥大学出版社 多种母语 >20000
LINSEI 口 语、
研究性 比利时Louvain大学 多种母语 100
SSTC 日本Meikai大学等 日语 100

2.2 书面语语料库
就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。

1)国际英语学习者语料库――ICLE
ICLE(International Corpus of Learner English)是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain-La-Neuve大学的Sylviane Granger教授。语料是由各种不同母语背景的大学三、四年级高级学习者的作文输入计算机组成,国际上众多大学参与了ICLE的建设。目前,ICLE中的文本是由14种不同母语背景的英语学习者撰写的。这些学习者来自法国、德国、荷兰、西班牙、瑞士、芬兰、波兰、捷克、保加利亚、俄罗斯、意大利、希伯来、日本和中国。ICLE按照不同母语把学习者的文本分成14个子库,并且还在增加新的子库,如葡萄牙语、卢森堡语、挪威语和南非语。ICLE中既有定时作文,也有不定时作文,每篇长度在500至1000词之间;既有考试试卷,也有自由完成的作文;既有参考工具书完成的,也有不用的。尽管题目各异,但全是非科技类文章和议论文,库中还包含一小部分文学考试试卷。荷兰大学TOSCA语料库语言学研究小组开发的TOSCA-ICLE赋码软件对ICLE进行赋码和句法切分。赋码系统包括17种主要的词类,共有220个不同的编码符,代表其中的子类和语义、句法和词形信息,软件系统现可在MS-DOS环境下运行。这个语料库的错误赋码通过一套错误赋码系统完成,该系统由Louvain-la-Neuve大学开发,名叫错误编辑器(Error Editor),能对每个错误进行赋码。错误编辑器的赋码系统为阶梯式,由一套主码和一套辅码分类组成,其中主码分为7类,即形式、语法、词汇语法、词汇、语域、词语冗长/词语丢失、词序和文体,然后还有一些辅码,一旦错误赋码完成,就可以根据错误码检索文本进行分析,如,进行错误统计,找出某个特定类型的错误以及观察出错的语境。目前,经过TOSCA软件词性赋码和错误编辑器错误标注的语料没有对外开放,公开发行的光盘版的语料生语料,在网站上可以购买,网址为 http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Projects/Icle/icle.htm,也可与项目负责人直接联系(granger@lige.ucl.ac.be)获得语料。

2)匈牙利英语学习者语料库――JPU
JPU是Jozsef Horvath创立的,也是首个西班牙英语学习者的大型语料库。这个语料库包含了1992-1998年间大学高年级外语学习者写的作文语料,共分为5个子库:英语子库、选修课作业子库、语言练习子库、研究生论文子库和写作技巧研究子库。JPU中两类主要文本为作文和研究论文。作文为非文学专业的大学生写的作文,包括个人自传、记叙文和描写文,但没有明确说明是否为非定时写作。JPU的文本进行了半标注,学习者的背景信息和其他信息如课程、学年和体裁是标注的,但词性和语法没有赋码,因此,语料库不能提供相关信息。JPU语料库的建立为语言学研究和语言教育研究提供了理想的材料,研究者可以根据不同的目的对学生的文本进行分析,如对学生的表现进行记录,使历时研究成为可能,研究者可以对比5个子语料库,或者比较JPU与母语的差异。JPU的部分语料可在网站http://www.geocities.com/jpu_corpus上检索,特别是其中的研究生子库中女生的作文从2001年10月起可以上网查到,其他的一些子库在网站上也有列表。

3)波兰英语学习者语料库――PELCRA
PELCRA项目是波兰Lodz大学英语系和英国兰卡斯特大学语言学和英语系的一个合作项目,创建于1997年,主要收集波兰英语学习者的各种语料,包括由不同水平的学习者提供的书面材料,从初级学习者到高级学习者。PELCRA中的语料为定时作文,大部分文章是议论文,也有一些记叙文和描写文,每篇长度在300至1000词之间。语料收集的时间为1998-2000年间Lodz英语学院及其附属师范学院的考试语料,学生的英语水平高低不等。语料为学生逐年上交的学年考试作文,因此,每个学生都有3篇作文,为了消除不同水平因素的影响,文章按1-4年级编排。目前的语料全部来自考试,今后的语料收集范围将扩大到考试以外。PELCRA中的部分语料依靠人工进行词性赋码。目前,PELCRA正在制定赋码规则。这个语料库可用于对比研究波兰语和英语在语序上的不同,如:比较前修饰和后修饰的问题;定冠词和限定语的问题;介词和搭配问题;词汇替代问题以及回避错误问题,该语料库还没有完全建成,如果感兴趣,可以访问以下网址http://www.uni.lodz.pl/pelcra/samples.htm。

4)瑞典英语学习者语料库――USE
USE是瑞典Uppsala大学建立的学习者语料库,语料来自瑞典大学高级英语学习者的书面文本语料。1998年开始项目试点,1999年正式启动。USE中的任务环境为非定时作文,体裁多是议论文和叙述文,每篇长度在800至1000词之间,上下浮动200个词。另外,文学和文化课的作业也包括其中。目前,USE的部分语料进行了词性赋码,使用的软件工具为Brill tagger,这个自动赋码器以转化规则为基础的,而不是根据概率方法设计的。对赋码样本标注后还要进行人工校对,所以准确性很高。但USE中没有常规的错误赋码,如果资金足够,USE也会进行错误赋码。建库的目的是为语言研究和教学提供语料,在一定程度上也用作课程评估,此外,也作为诊断工具,了解不同水平的大学生存在的外语学习困难。目前,USE还在建设之中,具体可以访问http://www.engelska.uu.se/use.html。


5)日本英语学习者语料库――JEFLL
JEFLL是由日本明海大学于1996年建立的,项目主持人为Yukio Tono教授。这个语料库的容量为50万词,语料包括定时作文、在20分钟内不用字典写的自由作文,体裁都为描写文和议论文,由于水平不等,每篇长度20至150词不等。JEFLL进行了多种赋码,包括词性赋码、错误赋码、语义赋码和句法分析。用词性赋码采用了CLAWS自动标注器,语义赋码采用了SEMTAG,句法标注用The Apple Pie Parser,错误赋码依靠人工,还使用了Tag Editor和Error Editor等工具。这些工具都是专门开发的。JEFLL的特点是语料包括初中、高中和大学生的样本,不局限在一个水平层次上,可以进行语言的发展性研究,比如说对某个词汇、语法或语义特征进行发展性分析研究。当前,JEFLL没有对外开放,但计划在两年内在网上公开发行(http://leo.meikai.ac.jp/~tono/index.html),既可以做研究用,也可以做商业用途。

6) 美国的英语学习者语料库――MELD
MELD语料库是由美国蒙特克莱尔州立大学的Eileen Fitzpatrick和Milton S. Seegmiller联合创建的,语料库的容量较小,约为5万词,语料来自不同母语的高级学习者的英语作文,MELD中作者的个人信息通过学习者问卷收集,包括年龄、性别和语言教育程度。语料为不定时作文,作文每篇平均500个词,库中的文体类型包括议论、因果、比较和对比等。另外还收集了50,000个词语,但还没有经过加工。MELD中不仅有词性赋码,还有错误标注,词性赋码用自动赋码器完成,错误标注依靠人工完成。该语料库的主要目的是为第二语言习得研究提供数据库。通过对语料库中的词性信息和错误进行分类和标注,可以很容易地检索到用法信息。有关该语料库的介绍可以登录以下网址查询:
http://www.chss.montclair.edu/chss/linguistics/MELD/index.html。


7)英国的商业性学习者语料库――CLC和LLC
剑桥学习者语料库(CLC)和朗文学习者语料库(LLC)是二个商业性的学习者语料库。商业性语料库和其他语料库的区别在于,建库是为了帮助出版社编辑外语学习词典和外语教材和教辅。尽管传统上词典出版商一般都使用本族语语料作为参考,但近年来,出现了通过建立学习者语料库,分析学习者错误为词典编撰提供依据的新趋势。CLC的的容量很大,收集了全世界不同母语的学习者参加剑桥大学作文考试的语料,文本都是限时作文,时间为1-1.5小时完成,CLC中的文本从Upper Main Suite Examinations中选取,背景信息非常全面,考生都填写了考生信息表,包括考试得分和试卷内容。CLC中的所有语料都是匿名的,其中四分之一的语料进行了错误赋码,方便词典编撰者检索学习者使用的例证,如,查找学习者用得好的单词、句式和语法结构,或者利用语料库发现学习者的学习难点。另外,CLC还应用于书面作文的机器阅卷和评分的软件开发。
像CLC一样,《朗文学习者语料库》的容量为几亿词,提供有关单词、用法、语言变化和英语语法句型的深层知识。LLC由世界各国的教师和学生发送来的作文和考试试卷组成,水平层次各异,作文和考试语料既有限时,也有非限时的,每篇作文都标记了作者的国籍、水平、文本类型(作文、书信、考试)、目标语类型(英国英语或美国英语)和居住国信息。LLC没有进行词性赋码,但为《朗文词典》提供参考的那部分进行了错误赋码。有关信息读者可以登陆网站http://www.longman.com/dictionaries/corpus/lccont.html 查询。

2. 2 口语语料库
国外学习者口语语料库的发展与书面语相比不仅容量小而且速度较慢,目前已建成或在建的语料库只有2个。

1)《LINSEI国际英语中介语口语语料库》(LINSEI Spoken Corpus)
LINSEI语料库于1995年开始建设,由比利时Louvain大学的S. Granger教授负责(granger@lige.ucl.ac.be)。该语料库包含多个子库,已建成的一个子库由50段访谈语料转写成的10万词的文本组成,采访对象为法语为母语的英语学习者,其中30位男性,20位女性。目前,正在建立多国英语学习者的若干个中介语子库,包括日本英语学习者、瑞典英语学习者、西班牙英语学习者、意大利英语学习者、保加利亚英语学习者和中国英语学习者等。此外,为了进行对比研究,还建立了英语为母语的平行口语语料库,以研究不同母语背景的英语学习者的中介语变化。目前,语料库建设者希望与世界各国的研究者合作,不断扩大各语种的英语学习者的口语语料。LINSEI语料库项目参加者有保加利亚索非亚大学的Roumiana Blagoeva,中国华南师范大学的何安平,比利时Louvain天主教大学的 Sylviane Granger、Sylvie De Cock、Stephanie Petch-Tyson,意大利Torino大学的Virginia Pulcini,日本Showa女子大学的金古知子,西班牙马德里自动化大学的Jesus Romero Trillo等三位学者,瑞典哥特堡大学的Karin Aijmer等。

2)《日本标准化英语口试语料库》(The Standard Speaking Test Corpus of Japanese EFL Learners)
SSTC语料库为英语口语考试语料库,项目于1999年开始启动,由日本明海大学、Showa女子大学、京都通讯研究实验室、理光软件研究中心、ALC出版社等多所大学和科研机构组成项目组,语料库设计规模为100万词,项目主持人为明海大学的TONO教授,全部语料来源为日本标准化分级英语口语水平考试(ACTFL-ALC)的录音,口试的级别从低到高为1-9级,日本的英语学习者均可以参加口试,取得相应的级别证书。2000年,语料库的建设已完成了转写方案的编制、标注方案的编写、标注编辑软件的设计。2001年,完成了口语错误标注方案、错误标注的支持软件研发。2003年,语料库项目结项,公开出版,需要者可以联系购买,联系方式为y.tono@meikai.ac.jp。

三、国内英语学习者语料库的发展
我国的学习者语料库建设与研究开始于上个世纪90年代中期,近年来发展迅速,已处于国际领先水平。到2004年为止,已经建成或在建的语料库有6个,其中,香港2个,内地4个。

表2 我国主要的英语学习者语料库
名称 类型 建设单位 母语背景 容量(万词)
HKUST 书面语 香港科技大学 广东话 >2500
TSLC 书面语 香港大学 广东话 300
CLEC 书面语 广东外语外贸大学等 汉语 100
COLSEC 口语 上海交通大学等 汉语 50
MSEE 书面语/口语 华南师范大学 汉语 87.6
SWECCL 书面语/口语 南京大学 汉语 >200

1)香港高中生英语语料库――HKUST
HKUST的项目主持人为香港科技大学的约翰•弥尔顿教授(lcjohn@ust.hk),语料库容量为2500万词,收集了香港高中生的英语考试作文语料,全部语料均为限时,每篇大约1000词。此外,还有一部分的语料是课外的作业。2001年,研究人员对语料库中百分之一的语料进行了随机人工错误标注和词性赋码, 重点围绕以下几方面开展研究:错误频率能否代表学生的实际学习困难?写作环境如何影响学习者的写作水平?错误率是否可以预测?目前已经取得了一些成果。HKUST的错误标注系统和规则(包括错误和非错误范畴)由设计者自行研发,并用人工检验错误标注的准确率。错误标注为文本格式,通过检索错误标注,就可以将错误分类,然后生成错误类型总表。此外,研究者使用了CLAWS词性赋码器,大大提高了赋码速度和一致性。这个语料库可供研究者对比学生限时和课外写作的差异,为分析中国英语学习者的中介语发展提供了数据,同时,也对大纲设计和教材编写极有价值。

2)香港初中生教学语料库――TSLC
TSLC是香港建立的另一个大型语料库,该项目由香港政府资助,香港大学教育学院主持,于1994年开始建设,其中的学习者语料主要来自香港中学生的(母语是广东话)英语作文文本,文本既有限时的考试作文,也有课外不限时的作文,每篇长度为300-500词之间。同时,还包括个人书信、正式商业信函、给编辑的信件、报纸或杂志社论、专门报道、演讲、口头报告和自由作文。这些文章的体裁有记叙文、复述、描写、说明文和议论文,都没有进行任何赋码。这个语料库可以和其他当代英语语料库进行对比分析,也可以对香港中学生写作进行调查分析,发现其中不正确用法的信息,比如过量使用,不少使用以及词汇、搭配或句法错误以及正确的用法。除书面语料库之外,还有教育资源数据库TeleNex,TeleNex由TeleGram和TeleTeach两个超文本数据库组成,包括几个分主题的讨论角。香港的中学教师可以免费上网进入。TeleGram主要提供有关英语语法和用法的信息,而TeleTeach则为教师提供课堂所需要的教学材料。该数据库的网址为http://www.TeleNex.hku.hk。


3)中国英语学习者语料库――CLEC
《中国学习者英语语料库》(简称CLEC)是国家社科基金“九五”规划项目,由桂诗春、杨惠中教授主持,语料库光盘版2003年已由上海外语教育出版社出版(桂诗春、杨惠中,2003)。该语料库收集了我国中学生、大学英语4、6级、英语专业低年级和高年级学生在内的100多万词的书面英语语料库,并用人工对所有的语料进行语法标注和言语失误标注,是一部含有言语失误标注的英语学习者语料库。

4) 《中国大学生英语口语语料库》――COLSEC
这个语料库是国家社科基金“九五”规划项目――《中国学习者英语语料库》(简称CLEC《语料库》)的后续项目,由杨惠中教授主持,口语语料库由上海交通大学2002年开始建设,设计规模为50万词。目前,上海交通大学、洛阳外国语学院、河南师范大学等高等院校的教师和研究人员参加,主要语料来源为全国大学英语四级口试的录音,将参加面试的大学生的口语语料转写成电子文本,再进行语音和错误标注。目前,转写工作即将完成,标注工作已全面展开,预计将于2005年底出版。

5)中学生英语语料库――MSEE
MSEE是1998年广东省高等学校电化教育"五个一百工程"的立项课题之一,由华南师大外语系何安平负责主持。课题组成员有:何广铿,冯彬,彭小凡。《中学生书面语语料库》(MSSW)是《中学英语教育语料库》(MSEE)的一个子库,由华南师大外语系负责建设。《中学生英语书面语,口头语语料库(MSSW, MSSS)》的总容量为87.6万词),其中MSSW约为40万词。收集了1997年全国英语高考广东省21市区1200名考生的英语作文和1998年全国英语高考广东省21市区2000名考生的英语作文。该语料库为研究我国中学生的英语书面语发展提供了极为宝贵的数据库,也为教学和教师提供了有用的反馈。《中学生英语口头语语料库》(Middle School Student Spoken English)是《中学英语教育语料库》的一个子库,该语料库含有三个子语库:《中学英语教材语料库(MSTM)》(44.3万字),《英语课堂教学语料库(MSCT)》(17.7万字)和《中学生英语书面语、口头语语料库(MSSW, MSSS)》其中,MSSS为87.6万词,包含初中生口头英语(SST1)和高中生口头英语(SST2)两类口语语料。该语料库的光盘版已由广东音像教材出版社出版发行。

6) 中国英语学生口笔语语料库――SWECCL
《中国英语学生口笔语语料库》(以下简称SWECCL)由国家211工程二期子项目“中国学生英语口语语料库”(Spoken English Corpus of Chinese Learners,以下简称SECCL)和教育部人文社科项目“中国大学生英语写作能力发展规律与特点”的数据库“中国学生英语笔语语料库”(Written English Corpus of Chinese Learners,以下简称WECCL)二个子项目组成,语料库的设计总规模为200万词,其中SECCL口语子库为100万词,WECCL子库为100万词,项目由南京大学主持,外语教学与研究出版社合作共同开发,笔者作为项目负责人之一,参加了建设全过程,全国共有11所大学的师生参加了建库各阶段的工作。
SECCL口语子库主要依托南京大学英语口语测试中心主持的全国英语专业四级口语考试,语料来源为我国英语专业大学生历年参加四级英语口试的磁带录音语料。口试语料已收集从1996-2002年共7年的英语专业四级口试录音的数码语音样本1148个,以及这些语音样本的电子转写文本1148个,总规模达1,460,042词,每篇文本语料都进行了文本头标记(HEADER MARKUP),除提供各年四级口试的完整文本外,还将各年的语料按照任务类型(复述、独白和会话)分别切分,供研究使用。此外,运用CLAWS自动赋码器对全部语料进行了词性赋码。SECCL语料库具有以下特点(文秋芳、王立非、梁茂成2005: 2):第一,口语语料来源于随机样本,具有广泛性和代表性;第二,口语语料按照7年的时间跨度分年存放,为研究者考察我国学生口语能力的发展提供了可能;第三,口语语料按照不同类型的任务加以分类,为考察任务类型变量对口语产出的影响提供了可能。第四,运用语法自动标注器CLAWS对所有的文本进行了语法标注和赋码,便于研究中国学生口语中的词法和句法的变化规律;第五,所有的文本语料都有相对应的语音文件,计算机可以直接读取和播放。研究者既可以做基于文本语料的口语研究,也可以对语音文件进行标注,开展基于语音语料的相关研究。
WECCL笔语子库的设计规模与SECCL大体相等,为100万词,书面语料主要从国内9所不同层次的高校英语专业的1-4年级学生中采集,以保证所选语料具有广泛的代表性。语料内容为若干不同题目的英语作文,文体为议论文,也有少量的记叙文和说明文,长度为200-800词不等,写作条件为课堂限时和课外非限时作文二种,WECCL的最终容量为3578篇作文,共1186215词,其中包括3059篇议论文,529篇记叙文,90篇说明文,全部作文语料来自9所高校。此外,为了方便研究,我们还将组织了一个小语料库,可用于研究书面语的发展情况,这个小语料库按不同水平划分,共有489篇1-4年级的作文语料,其中,议论文278篇,记叙文121篇,说明文90篇,全部语料都进行了文本头标记,并运用CLAWS自动赋码器对全部语料进行了词性标注,经检查,赋码正确率为95.5%。
WECCL设计时考虑不同年级和水平、不同层次的院校和不同写作时间。在具体采集数据时,考虑到各种复杂因素可能会对数据的采集和以后的研究造成的影响,对影响产出的一系列变量进行了一定的控制,主要控制变量包括:1)写作时间;2)写作条件;3)写作文体;4)写作长度;5)写作水平;6)写作题目;7)学生类型等。
在写作时间上,作文分为限时和非限时两种,限时作文时间为40分钟;在写作条件上,限时作文当堂写作,当堂交卷,非限时写作课外写作,时间不限;在写作文体上,限时与非限时作文均为议论文;在写作长度上,要求不少于300词;在写作水平上,不同层次的院校中的1-4年级的学生均参与,以采集不同语言水平的学生的写作数据;在写作题目上,作文均为指定命题作文,相同学校的同年级学生所写的作文题目相同,不同院校的作文题目不同,这样,既有话题广泛性,也有话题的统一性;在学生类型方面,提供语料的学生均为英语专业的学生,可以集中反映某个群体的中介语发展特点。
WECCL语料库在设计时着重考虑了为中介语研究提供多纬度的视角,因此,具备以下三个特点(文秋芳、王立非、梁茂成2005:2):第一,作文分为限时和非限时作文,为考察时间变量对二语写作的影响提供方便;第二,作文分不同文体和年级,可以考察学生写作能力和中介语的发展情况;第三,所有的书面语料进行了词性赋码,便于研究者研究中国学生的中介语词法和句法发展的特点。

三、基于学习者语料库的二语习得研究的理论与方法
3.1 研究理据
在理论上,以言语为研究对象的理论视角标志着从研究语言向研究言语的转变。Ellis (1994:670)认为,二语习得的数据主要可分为三类:1)语言使用数据,反映出学习者在理解和表达时的二语使用,2)元语言判断数据(metalingual judgements),反映出学习者对二语的直觉判断,例如,判断句子的语法性(grammaticality),3)自我报告数据,通过问卷或有声思维方法研究学习者的策略。当前,二语习得研究主要基于“内省式数据”(introspective data)和诱导出的语言使用数据,也就是Ellis所区分的第2和第3种。一些研究者不愿意研究自然语言使用,他们的理由是,第一,在样本较少时,某些语言特征的出现频率很低,甚至根本就不出现,除非经过专门诱导。第二,由于影响语言使用的变量没有得到控制,因此,就无法对变量进行系统的研究。第三,语言使用数据无法反映出学习者语言的全部特征,因为学习者总是通过“迂回”或其他手段回避困难。但主张研究学习者语言使用的学者认为(Granger 2002: 87):内省与诱导数据存在局限性,诱导出来的数据的信度令人置疑,人为的实验环境下诱导出来的数据与学习者使用的语言具有很大差异。此外,由于实验条件所限,数据采集只能在很小的范围内进行,得出的结论不具有普遍性。而学习者语料库正好弥补了这种不足,当今的大型学习者语料库由于容量大,设计严密,因此,可以对影响学习者产出的因素做全面系统的研究,如通过对比学习者和母语使用者的词汇、结构的出现频率,观察回避现象等等。基于学习者语料库的二语习得研究具有几个明显的特点(王立非 2005: 2):第一,使用语言统计的分析技术,不依赖于绝对的逻辑规则;第二,将重点放在大量的中介语真实材料上,而不是仅仅依靠零星的例证;第三,可以深入和真实地描写中介语的微观层面,为抽象的定量统计分析和精细的个案文本分析之间架起一座桥梁;第四,大量的中介语语料可以长期保存、复制、检索,为验证性研究提供了可能。

3.2 研究方法
在方法论上,以概率和频率为基础的二语习得研究,为我们的外语教学研究提供了一种新的哲学思维方式,从根本上拓宽了二语习得实证研究的方法视野。二语习得研究一般以两种方法开展(王立非 2005: 5),一种是以假设为基础,另一种是以发现假设为目的。研究者如果采用第一种传统的方法,就根据文献报告的研究成果,提出假设,运用学习者的数据验证假设。这种方法的好处是研究重点明确,有助于对得出的结果进行解释。不足之处是研究的范围受到研究问题的局限。如果采用第二种方法,就要收集课堂教学的相关数据,加以仔细量化,寻找规律,这种方法适用于基于学习者语料库的二语习得研究。在学习者语料库基础上发展起来的中介语对比分析(Contrastive Interlanguage Analysis)方法为二语习得研究提供了从多维度研究中介语的途径(文秋芳、王立非、梁茂成2005: 4):(1)本族语语料与非本族语语料进行比较;(2)多个不同非本族语语料之间进行比较;(3)同一非本族语语料中不同水平之间进行比较;(4)口语语料与笔语语料之间进行比较。笔者预测,基于学习者语料库的研究将越来越多。
当然,在学习者语料库研究上,对计算机定量统计方法的局限性应该有一个正确的认识,
首先,学习者语料库只能提供静态的书面或口语数据,无法提供动态和学习过程的有关信息;其次,学习者语料库只能研究产出性技能,而对听和读等接受性技巧就无能为力。第三,学习策略、学习动机等学习者的个体差异也是从学习者语料库研究中得不到的。因此,在二语习得研究中,必须提倡将这两部分研究(产出语言、产出技能、总体模式、语言使用和学习过程、接受技巧、个体差异、语言知识)结合起来。

四、结语
因此,笔者建议,今后在运用学习者语料库开展二语习得研究时,对语料库的设计必须考虑学习者语言和学习者两方面的因素,第一,学习者语言方面包括媒介、风格、话题、技术性、任务场景等;学习者个体差异方面包括年龄、性别、母语、地区、其他外语、外语水平、学习环境、实际经验等,第二,可以考虑建立跟踪语料,以描述中介语的发展全过程。最终目标是,我国的各类各层次的学习者语料库汇合在一起,形成完整的语料系统,反映出中国英语学习者的二语发展的总体特征和全貌。







参考文献


Ellis, R. 1994. Studies of Second Language Acquisition [M]. Oxford: Oxford University Press.
Granger, Sylviane (ed). 1998. Learner English on Computer[C]. London: Addison Wesley Longman Limited.
Granger, S., Huang, J. & Petch-Tyson, S., (eds) 2002. Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching [C]. Language Learning and Language Teaching 6. Benjamins, Amsterdam & Philadelphia.
Leech, Geoffrey. 1998. Preface [A]. In S. Granger (ed), xivCxx.
桂诗春,杨惠中,2003.《中国学习者英语语料库》[M],上海外语教育出版社。
王立非,2005.《中国学生英语口笔语语料库的建设与研究》[R],南京大学中国语言文学博士后流动站研究报告。
文秋芳、王立非、梁茂成, 2005.《中国学生英语口笔语语料库》[M],外语教学与研究出版社(出版中)。


Current Developments in Learner English Corpus in and Outside China

Wang Lifei, BeijingUniversity of International Business and Economics/Nanjing International Studies University
Sun Xiaokun, Nanjing International Studies University

Abstract: This paper gives an overview of the current developments in learner English corpora in and outside China. It also discusses the theory and approach of corpus-based SLA studies, a new perspective in second language acquisition research.
Key Words: Learner Corpus, SLA Research, Current Developments

Correspondence: Wang Lifei, School of English Studies, University of International Business and Economics, Beijing, China (100029)
Email: philipw@jlonline.com
Sun Xiaokun, Second Department of International Studies University, Nanjing, China (210039)
 
回复: 国内外英语学习者语料库的发展:现状与方法

你好,想问一下,我怎么能够得到国际英语学习者语料库口语部分的语料呢?急需。。。主要需要两部分:英语本族语者的和中国学生的口语语料。如果有的话,能发给我吗?邮箱lemy2161356@126.com,谢谢啦
 
回复: 国内外英语学习者语料库的发展:现状与方法

王立非老师在给《应用语料库语言学的多维视角》一书做导读的时候也用到了这篇文章的一些内容,他提到
[FONT=宋体]目前国内外,对学习者语料库的研究大体上分为三个方面:[/FONT]
1[FONT=宋体])学习者语料库的建设和开发,主要是语料库的设计、学习者语料库建设和相关软件开发。
2[FONT=宋体])基于学习者语料库的二语习得研究,包括语音、语法、词汇和语篇的各个方面。
3[FONT=宋体])学习者语料库在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。[/FONT]
[FONT=宋体]我查了一些词典编纂的资料,虽然国外好多知名的词典都用到了语料库,但没有明确提到是利用学习者语料的数据编写的。[/FONT]
[FONT=宋体]请问许博士,有没有什么资料提到过哪部词典或者其他工具书的编写用到了学习者语料库的。谢谢![/FONT]
[/FONT]
[/FONT]
 
回复: 国内外英语学习者语料库的发展:现状与方法

许博士:您好!请问到2010年为止国内学习者语料库已经建成的共有多少?分别是哪些?非常感谢!
 

xujiajin

管理员
Staff member
回复: 国内外英语学习者语料库的发展:现状与方法

CLEC,SWECCL1.0,COLSEC,SWECCL2.0,PACCEL,CEM等
 
回复: 国内外英语学习者语料库的发展:现状与方法

您好,由于论文的缘故,我急需《初中英语教师教学语料库》中的10节课的文本资料,请问《中学英语教育语料库》的光盘市面上能买到吗?谢谢!
 
回复: 国内外英语学习者语料库的发展:现状与方法

王立非老师在给《应用语料库语言学的多维视角》一书做导读的时候也用到了这篇文章的一些内容,他提到
[FONT=宋体]目前国内外,对学习者语料库的研究大体上分为三个方面:[/FONT]
1[FONT=宋体])学习者语料库的建设和开发,主要是语料库的设计、学习者语料库建设和相关软件开发。[/FONT]
[FONT=宋体]2[FONT=宋体])基于学习者语料库的二语习得研究,包括语音、语法、词汇和语篇的各个方面。[/FONT]
[FONT=宋体]3[FONT=宋体])学习者语料库在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。[/FONT]
[FONT=宋体]我查了一些词典编纂的资料,虽然国外好多知名的词典都用到了语料库,但没有明确提到是利用学习者语料的数据编写的。[/FONT]
[FONT=宋体]请问许博士,有没有什么资料提到过哪部词典或者其他工具书的编写用到了学习者语料库的。谢谢![/FONT]
[/FONT]
[/FONT]
Collins COBUILD is corpus-based
 
回复: 国内外英语学习者语料库的发展:现状与方法

从文章荟萃部分转贴philipw101的文章

国内外英语学习者语料库的发展:现状与方法

对外经济贸易大学/南京国际关系学院 王立非
南京国际关系学院 孙晓坤

摘要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支――基于学习者语料库的第二语言习得研究的理论与方法。
关键词:学习者语料库、第二语言习得研究、现状


请教该文章的出处,想留个copy,因为里面有表格,谢谢许老师。
 
回复: 国内外英语学习者语料库的发展:现状与方法

王立非老师在给《应用语料库语言学的多维视角》一书做导读的时候也用到了这篇文章的一些内容,他提到
[FONT=宋体]目前国内外,对学习者语料库的研究大体上分为三个方面:[/FONT]
1[FONT=宋体])学习者语料库的建设和开发,主要是语料库的设计、学习者语料库建设和相关软件开发。[/FONT]
[FONT=宋体]2[FONT=宋体])基于学习者语料库的二语习得研究,包括语音、语法、词汇和语篇的各个方面。[/FONT]
[FONT=宋体]3[FONT=宋体])学习者语料库在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。[/FONT]
[FONT=宋体]我查了一些词典编纂的资料,虽然国外好多知名的词典都用到了语料库,但没有明确提到是利用学习者语料的数据编写的。[/FONT]
[FONT=宋体]请问许博士,有没有什么资料提到过哪部词典或者其他工具书的编写用到了学习者语料库的。谢谢![/FONT]
[/FONT]
[/FONT]
现在新出的英语词典基本上都是基于语料库的。
 
回复: 国内外英语学习者语料库的发展:现状与方法

许老师:
请教您SWECCL(1.0)版里的NS(以英语为母语的学生的语料库是取自哪个语料库的呢?现在写论文,急需说明NS的出处。谢谢啊!:):eek:
 

xujiajin

管理员
Staff member
回复: 国内外英语学习者语料库的发展:现状与方法

我不太清楚SWECCL里的NS什么意思,你如果买了SWECCL,应该随光盘有一个小册子,有详细说明。

SWECCL里应该没有本族语者的语料。
 
顶部