外语学术科研网 - 纪念专题 | 肖忠华语料库语言学答客问（上）

laohong · 2016-01-06

国际知名语料库研究学者、华人语言学研究学者的杰出代表肖忠华教授因病于2016年1月2日逝世。

肖忠华教授师从英国兰卡斯特大学Tony McEnery教授，2002年获得语料库语言学博士学位。他的研究领域涉及：基于语料库的对比与翻译、汉语研究、英语研究、时体理论、语言教育及二语习得等。肖教授著述量多质优，尤其在基于语料库的英汉对比与翻译研究以及汉语研究方面的成果突出。很多论著为相关领域必读必引之作。

肖教授生前应《语料库语言学》期刊之邀，抱病完成该刊“同题共议”栏目的书面访谈文章《肖忠华语料库语言学答客问》，深谈了国内外语料库研究进展和他个人的学术历程。斯人已逝，幽思长存，谨以此文缅怀肖忠华教授。

语料库语言学答客问

肖忠华

1. 您最早是什么时候开始接触语料库的？您能描述一下当时国际国内语料库研究开展的情况吗？

我最初接触“语料库”的概念，是在20 世纪80年代中期读大学本科的时候。我对英语语法比较感兴趣，所以喜欢研究夸克等人编写的《当代英语语法》和《英语语法大全》，发现这些原版著作对英语语法的描述及其例句和张道真《实用英语语法》等当时国内流行的英语语法之间一个很大的差别就在于，夸克语法更接近真实的语言。当时，我并不知道语料库这个名称，只是了解到夸克语法是以夸克等人建立的“英语用法调查”（Survey of English Usage，SEU）数据库中所收集的英国人实际使用英语的素材为基础的。

真正开始接触“语料库语言学”这个术语，是在1999年联系到英国攻读博士学位的时候。由于一直对英语语法感兴趣，就联系了当时在兰卡斯特大学任教的夸克语法作者之一的Geoffrey Leech教授。由于Leech当时已从讲座教授退休改为研究教授，不再接收新的博士生，所以他把我推荐给了Tony McEnery 教授（当时其职称为Reader in Multilingual Corpus Linguistics）。这是我第一次听说“语料库语言学”这个名称，了解到语料库语言学是用计算机来分析人们实际使用的真实语言，不仅采用传统语言学中的定性分析方法，而且采用数理统计方法对语言的使用作定量分析。由于我本科和研究生读的都是英语和语言学专业，感到语言学和数理统计相结合的研究十分新奇，而且我对计算机一直很感兴趣，所以就同意从英语语法转为语料库语言学方向。当时，上海教育出版社刚引进出版了《牛津应用语言学丛书》一套28 册，其中包括John Sinclair的《语料库、索引与搭配》（Corpus, Concordance, Collocation），这是我读到的第一本专门研究语料库语言学的著作。

当我在2000年初到英国兰卡斯特大学开始博士研究时，我对语料库语言学的了解差不多是零起点，第一年只好开始恶补语料库语言学、统计学、计算机编程三大块的知识。当时，该领域除了McEnery & Wilson（1996，2001）的《语料库语言学》等少数专著外，大多数语料库研究基本都是以论文集的形式出版的，这是因为20世纪80—90年代还很少有期刊接受和发表语料库方面的论文。当时，采用语料库的研究方法尚未像十多年后的今天那样普遍为人们接受而显得理所当然，还可以听到各种反对声音（如Widowson 2000；Newmeyer 2003）。积极倡导语料库语言学的学者（如Sinclair 和Leech）对语料库的建库原则和分析方法存在意见分歧。

虽然多语种语料库已于20世纪90年代中后期开始得到了发展（如英语—挪威语平行语料库），但在新世纪初，当人们提到语料库语言学时，基本上是指英语语料库语言学，这是因为在统一码（Unicode）应用于文字编码之前，安装与统一码兼容的Windows 2000之前操作系统的计算机只能处理ASCII 编码的语言，除非支持特定的字符集。当时国际上应用最广泛的语料库是英国国家语料库（BNC）和由ICAME发行的包括Brown、LOB、Frown、FLOB在内的语料库光盘。语料库检索与分析软件包括基于DOS的Longman Mini Concordancer 与WordSmith 3.0 版。由于当时语料库分析工具相当简陋，所以学习语料库语言学基本上都需要学习编程才能满足自己的研究需要。我最初学的编程语言是Perl（当时还没有现在很流行的编程语言Python 和R），该语言的正则表达式功能强大，而且非常适合语料库建库和分析。随着学界对语料库语言学兴趣的升温，兰卡斯特大学发起了每两年举办一次的“国际语料库语言学大会”，第一届于2001 年召开，即CL2001，到2015 年已是第八届了。

在国内，虽然上海交通大学杨惠中教授的团队于20 世纪80 年代早期就已开始研制科技英语语料库（JDEST），随后石油大学广州分院的祝启波也建了石油英语语料库（GPEC），但即使是在语言学界，了解语料库语言学的人也非常少。记得当时国内有人问我在英国读什么专业，我说是Corpus Linguistics，人家还以为跟尸体有关而感到很恶心。值得一提的是，台湾中研院黄居仁、陈克健团队于20 世纪90 年代中期就成功研制了第一个带词性标注的现代汉语平衡语料库，并在网上对公众开放。

2. 语料库研究的哪些特点最吸引您？

语料库语言学借助自然科学的实证研究方法，利用计算机软件对大规模真实语言数据进行分析，不仅包括传统的定性分析，而且还采用数理统计方法对语言进行定量分析。需要特别指出的是，语料库语言学不像转换生成语法等传统语言研究那么依赖于研究者的语言直觉，而是主要依靠真实语料的实证数据，但同时又不排斥语言直觉，两者有机结合。

语言学研究中常用的数据有两类，即真实语料和研究者的语言直觉。语言分析当然离不开语言直觉。例如，语言直觉可用来造句（不管是正确还是错误的例句）用于语言分析，也可用来判断某一表达方式是否可接受或合乎语法。研究者在需要时可立即利用直觉通过内省来编造更纯的例句，这是因为语言直觉随手可得，而且编造的例句不像人们在真实语境中使用语言那样受语言外部因素干扰。从某种意义上甚至可以说，语言直觉在语言学研究中是必不可缺的，因为对语言现象的分类通常涉及基于直觉的判断，而这种分类在构建语言理论时无可避免。然而，正如Seuren（1998：260-262）所述，语言直觉必须谨慎使用。

首先，语言直觉可能会受到个人的地域方言或社会方言影响（Krishnamurthy 2000a：172）。结果就是，一句话对某个人来说不合语法或不可接受，而对另一个人来说却完全正确。因此，我们常可发现在语言学文献中，对某些例句的可接受性争论不休。其次，研究者编造例句来支持或驳斥某一论点时，同时在有意识地监控自己的语言产出。因此，即使其语言直觉是正确的，编造出来的例句也不能代表典型用法。第三，基于语言直觉通过内省得到的语言数据脱离语境，因为它存在于内省者头脑中而非真实语境中，而要判断一句话是否合乎语法或可以接受，语境至关重要。有了合适的语境，即使是脱离语境时显得不合语法或不可接受的语句也有可能会变得合乎语法或可以接受，而人们的想象力十分丰富，即使是最不可思议的话语，也可以想象出可能的语境（Krishnamurthy 2000b：32-33）。第四，基于语言直觉的研究结果很难验证，因为研究者是在头脑中通过内省来造句，无法直接观察。第五，过分依赖直觉会使研究者对语言使用的现实视而不见（Meyer & Nelson 2006）。例如，由于罕用词或不常见的用法具有心理上的突显性（Sinclair 1997：33；Krishnamurthy 2000a：170-171），人们更倾向于注意到不常见的语言现象而又对普通现象熟视无睹。最后，在语言学的某些研究领域中（如语言变异研究、历时语言学、语言习得等等），研究者无法可靠地使用个人的语言直觉，而必须依赖于语料库数据（Meyer 2002；Léon 2005：36）。

通过内省得到的语言数据基于研究者个人的语言直觉，而语料库数据则截然不同，它汇集了许多语言使用者的语言直觉。语料库中的书面语或口语语料样本源自于真实语境中使用的自然语言。由于人们在真实语境中使用语言也是基于自己的语言直觉，可以说语料库也是基于语言直觉的，但它比内省式的语言数据更加自然，因为它是用于实际的交际目的而不像后者那样是编造出来用于语言分析的。与研究者个人通过内省得到的语言数据相比，语料库数据一般能反映出更多语言使用者的语言直觉。语料库方法还能很容易地提供语言现象的频数，而这很难利用语言直觉可靠地预测（McEnery & Wilson 2001：15）。正因为如此，语料库能使研究者克服自身语言直觉中的偏颇，并使之能够辨别哪些是具有统计意义的典型语言现象，哪些是随机现象。总之，语料库不仅能提供业已验证的、带有语境的定量数据，而且有助于识别语言直觉无法觉察的用法差异（Francis, Hunston & Manning 1996；Kennedy 1998：272）。此外，语料库方法还在过去30 年间拓展或突出了语言学中一些无法只通过语言直觉来研究的新领域（如语体变异研究）。

语料库研究的这些特点使之有别于传统的语言研究，并更能取得可靠的研究结果。正如Leech早在20世纪90 年代初指出的那样，“50年代的语料库语言学家拒绝语言直觉，而60年代的普通语言学家拒绝语料库数据。两者均未获取近年来许多成功的语料库分析所涉及的数据覆盖面和所取得的精辟见解”（Leech 1991：14）。正因为具备这些优势，语料库方法不仅成了语言学领域的标准研究工具，而且已开始逐渐成为基于文本的人文社科领域中重要的研究工具。

3. 有没有哪（个）些学者或某（个）些论著在语料库研究方面对您影响较大？如有的话，您能说说影响主要体现在什么方面吗？

我最初的语言学研究兴趣是英语语法和语义学。正式接触语料库并系统研究语料库语言学，是2000年初到兰卡斯特大学攻读博士学位才开始的，在此之前对语料库研究知之甚少。因此可以说，在语料库研究方面对我影响最大的是以Leech和McEnery 为代表的兰卡斯特语料库语言学传统。

一般认为，在语料库语言学内部有两个不同的取向，即“基于语料库”和“语料库驱动”，或称“语料库作为方法”和“语料库作为理论”（McEnery & Hardie 2012），分别以Leech为首的兰卡斯特团队和以Sinclair为首的伯明翰团队为代表。两者在语料库的性质（即语料库语言学是方法还是理论、对待语言直觉和语料库前理论的态度）、语料库建库（如语料库的平衡性与代表性、语料采用全文还是抽样、语料库标注）、语料库分析（如基于语料库或语料库驱动、推断统计在语料分析中的作用）等方面都存在意见分歧（McEnery, Xiao & Tono 2006；McEnery & Hardie 2012）。当然，两大派别之间的对立存在着人为夸大的因素（Xiao 2009a：993）。再者，随着时间的推移，继承Sinclair和Leech语料库研究传统的两派语料库语言学家之间目前已有较大程度的融合，双方取长补短。

除了兰卡斯特传统，Biber（1988）的多维度分析法对我的语料库研究也有较大的影响。多维度分析法最初用于分析英语口语和书面语之间的语体差异，但在过去近30年中发展迅速并得到了广泛运用。我在这方面的研究主要集中在3个方面，即世界英语、科技论文摘要、翻译共性（Xiao & McEnery 2005；Xiao 2009b；Cao & Xiao 2013；Hu, Xiao & Hardie forthcoming）。

4. 您如何评价中国语料库研究在过去若干年的发展以及目前的现状？

目前布朗语料库被公认为第一个电子英语语料库，Quirk 等人在伦敦大学学院于1959年开始建立的“英语用法调查”也被称为现代语料库语言学研究的鼻祖。然而，由于汉语具有汉字众多的特点，尽管当时还没有语料库这个名称，但汉语研究早就具有采用真实语料来确定常用字词的传统。例如，我国第一个现代意义上的汉语字频统计，即黎锦熙的《国语基本语词的统计研究》，早在1922 年就已发表。教育家陈鹤琴及九名弟子花了3 年时间收集并分析了6 类“语体文”语料共计形符554,498 字，类符4,261 字，并对频数为5,000、3,000、2,000 和1,000 以上的频段进行统计，发现这些频段的字数分别为10、19、38 和100 以上，其结果于1922年发表在《新教育》第5 卷第5 期，其修订本由商务印书馆于1928 年重新出版为《语体文应用字汇》。黎锦熙和陈鹤琴的汉语字频研究无疑为我国基于语料库的词汇研究开了先河。

随着语料库语言学在英美等国逐渐兴起，以及计算机中文信息处理技术的改善，语料库研究也从20 世纪80 年代开始在我国得以开展，并在过去近20年中得到了迅猛的发展。我国的语料库研究主要集中在以下3个方面：汉语语料库与中文信息处理、学习者语料库与汉语中介语语料库、汉英双语平行语料库。第一类汉语语料库大多是由计算机专业研究者所建的专门用途语料库，缺乏平衡性，主要服务于中文信息处理而非语言学研究。第二类语言教学用语料库研究主要由高校外语教师和对外汉语教师承担，其中学习者语料库主要是专业和非专业英语学习者语料库，收集的语料大多为历年英语等级考试材料，而汉语中介语语料库主要包括日、韩、泰国等亚洲国家在华留学生的作文和口语材料。第三类双语平行语料库建设主要与过去10年左右我国开展语料库翻译学研究密切相关。

语料库语言学在中国的迅速发展，主要得益于政府与学术机构的大力支持以及高校等学术组织对语料库研究方法的推广普及。例如，近10年来，由国家社科基金资助，包括重大课题在内的批准项目每年都有差不多20个，出版社与语言学专业期刊也越来越愿意发表语料库研究成果。近年来国内许多高校都为语言学专业研究生开设了语料库语言学课程，北京外国语大学中国外语教育研究中心和上海交通大学也为高校教师和研究生等开设了多期语料库语言学研修班。另外值得一提的是，由中外学者的民间力量自发组织开发并维护的www.corpus4u.org 网站，自建站10 年来为语料库研究在我国的推广和发展起到了十分重要的作用。虽然我国的语料库研究在新世纪得到了长足的发展，但目前还存在不少问题。

首先是学科之间沟通合作不足。语料库语言学涉及语言学、计算机、数理统计等多个学科的专业知识，学科之间的合作不仅能拓宽研究思路、提高研究质量，而且对当今大数据时代的研究来说发挥着越来越重要的作用。而在我国，研究语料库的两个研究群体，即研究汉语语料库和中文信息处理的计算机领域和主要研究外语语料库的外语教学与研究领域（包括涉及汉语的语言对比与翻译研究），由于其研究目标不同，两者之间很少有相互的研究合作。在2011年5月由香港教育学院主办的“汉语语料库及语料库语言学”圆桌会议上，国内的与会者大多是中文信息处理和汉语研究方面的专家。当我提到“中国语料库语言学研究会”，几乎没有人知道或承认这个语料库协会，说这是外语教师的一个组织吧。其实，研究语料库的语言学家与计算机专家之间的合作对双方都有利。一方面，语言学家的参与能使语料库更具有代表性，而另一方面，计算机专家的投入能使语料处理效率更高、语料加工也更具深度。在这方面，兰卡斯特大学的UCREL和CASS语料库研究中心工作开展得卓有成效。

UCREL研究中心的研究人员包括语言学系和计算机系对语料库研究感兴趣的老师，双方相互合作取长补短，承担了包括英国国家语料库（BNC）在内的不少大型研究项目。由“英国经济社会研究理事会”（ESRC）投资430万英镑成立的CASS语料库研究中心更是以语料库为共同研究平台，聚集了语言学、计算机、心理学、医学、历史学、社会学、政治和财经等众多学科的专家，从多学科角度对各种社会问题进行研究。这种学科之间的紧密合作值得我国语料库研究者借鉴。

其次，重复投资、资源利用率不高。虽然国内每年都有许多语料库建设项目得到国家或省部级的资助，但建成的语料库大多仅供内部使用，有些项目建而不研，有的建成后束之高阁。其结果是语料库资源利用率不高，从而引起重复投资而浪费。当然，有些语料库是由于包括大量全文引起版权问题而使得对外开放资源受到限制，但此类版权问题从项目一开始，进行语料库设计时即应加以考虑。其实，只要语料库设计合理，并与版权方充分沟通，这些问题是可以解决的。例如，美国的语言数据协会（LDC）、欧洲语言资源协会（ELRA）和牛津文本档案库（OTA）都发布了大量的语料库资源，其版权问题都得到了妥善解决。要提高语料库资源的共享度，我建议有关部门出台规定，凡是得到国家和省部级资助的纵向课题产生的语料库都必须在结题后一定时间内（如6个月的保护期后，以便项目组享有数据的优先使用权）将资源向公众开放。英国研究理事会的数据政策规定，所有资助项目产生的数据资源必须在项目结束后公开。我国可以借鉴这一做法。

再次，从国内出版和发表的研究成果来看，绝大多数语料库质量不高，语料分析也缺乏深度和系统性；发表的论文翻译引介国外研究的多，而实证研究少。语料库研究质量不高与我国语言学界流行的“一窝蜂上”这一通病有关。从最初的转换生成语法到系统功能语言学，再到现在的语料库语言学，都存在这个问题。从www.corpus4u.org 网站上的提问和讨论来看，国内有不少早期职业研究者，对语料库一知半解，甚至缺乏最基本的语料库知识和分析技能，都在用语料库方法作研究写论文。其实，语料库只是研究方法的一种，而且这种方法不是万能的。有些研究问题用其他方法来研究效率更高。只有弄清楚语料库能用来做什么，不能做什么，如何针对特定的研究问题建立或选择合适的语料库，使用什么工具，以及特定软件的哪些功能，采用哪些统计分析手段，如何将语料库证据和包括语言直觉和其他学科知识在内的资源结合起来，才能够产出高质量的语料库研究。

最后，我国的语料库研究基本上都在国内的中文期刊上发表，而很少有论文发表在高档次的国际期刊上，缺少与国际学术界的互动与交流，以至于国际学术界对中国的语料库研究知之甚少。其实，我国的语料库研究在某些方面（如汉语语料库的加工，涉及汉语的双语平行语料库研究）还是处于国际领先地位的。各高校和科研单位应改革并完善业绩评定与奖励机制，鼓励作者走出去在国际上出版和发表自己的研究成果，让世界听到来自中国的声音，了解我国的研究现状。近年来，我国的学者在这方面已开始取得一些进展（如Tsou & Kwong 2015；Xiao & Hu 2015；Xiao & Wei 2014；Zou, Hoey & Smith 2015；Hu & Kim forthcoming）。

原文地址： http://mp.weixin.qq.com/s?__biz=MjM...cbadd2dae8107&3rd=MzA3MDU4NTYzMw==&scene=6#rd

dungcu.host · 2016-08-31

very good!

外语学术科研网 - 纪念专题 | 肖忠华语料库语言学答客问（上）

laohong

管理员

dungcu.host