关于语料库的一些问题

大家好,最近因为要写一篇关于语料库的作业,找到这个论坛。这里面真的有好多有用的东西,平台建的也是相当的好:)于是忍不住注册,更收到了论坛管理团队的邮件,于是便下定决心要来常常关注这个版面(当然啦,前期的关心总是从任务开始的)。

在我们查到的资料中,对“语料”和“语料库”是这样定义的:
[FONT=宋体]?[FONT=宋体] 语料:用于任何研究的语言材料集合 [/FONT]
[FONT=宋体] 语料库(Corpus)——存储语言材料的仓库[/FONT]
[FONT=宋体] [/FONT]
[FONT=宋体] 但是很多基于语料库的研究,都是使用了语料库的统计功能,然后才进行进一步的研究。所以,也许在这个意义上,语料库是指以承载着结构化了的语料并能提供上层服务的数据库(自己的感觉)。那么,在前面的一篇文章《常用语料库链接页面Corporalink:小许的语料天涯0407更新》中的链接,诸如“百度、google、北大图书馆、CNKI”等怎么也算作“语料库”了呢?还是这里的“语料库”是广义上的?因为我感觉的语料库,应该能实现统计的东西吧~[/FONT]
[FONT=宋体] 呵呵,一点疑问。因为我本来也对基于统计的研究比较感兴趣,所以应该会继续关注语料库的,也会常常来~[/FONT]
[FONT=宋体] 期待大牛的解答:p [/FONT]

[/FONT]
 
回复: 关于语料库的一些问题

"常用语料库链接页面Corporalink:小许的语料天涯0407更新"属于许博士的个人常用链接页面,虽然很多链接和语料库以及语料的收集整理有关,也有一些链接和语料库没有密切关系。这种链接分类只是为了便于个人查找相关资料的方便,并不能代表语料库的定义在corpus4u这个论坛会有什么不同。
 
回复: 关于语料库的一些问题

嗯,好的。谢谢oscar的回答。
语料库的东东我们也还在做一些探索,希望最终能有一个成文的东西发过来
与大家共享:)

我看过了前面的所有主题,真的觉得这个论坛做得很好。
也会常常来啦~
 
回复: 关于语料库的一些问题

个人觉得,从广义上来说,百度,google等搜索引擎也可以算作语料库检索工具。不知大家意见如何?
 
回复: 关于语料库的一些问题

要看自己研究的目的吧,如果你要了解网络语言,给你BNC 是没用的。如果你要知道明天北京的天气,你搜寻的网址一定不是淘宝。你需要的语言是什么,哪些才能说明你要找的问题,才决定了你用于该问题的语料库来源和大小等,而不是有几个语料库在那里,它们准备解决语言学中的一切问题。
我的愚见而已。
 
回复: 关于语料库的一些问题

语料库,顾名思义是语料 + 库。严格意义上将网络上语言汇集作为库进行语言研究有很大问题。比如网络语言的代表性、平衡性,本语、外语或二语语言输出主体的混淆,语言的输出的时间不同等因素使基于网络语言的研究只能算是一般的考察,不能算是严格意义的语言研究。
语料库语言学书本里提到的大部分语料库是专家根据严谨科学的设计规则而建立的,具有代表性,语言数据具有信服力。
 
回复: 关于语料库的一些问题

能实现统计的话,用现行无争议的方法,那么使用语料库的性质是一个自然语言的样本,但是话又说回来,经典语料库真的就具有颠扑不破的“代表性”么?我认为不可迷信语料库的“代表性”,因为这个代表性很难用具体的标准去衡量。。。

语料库的概念应该被扩充,大量语料的仓库也可以称为语料库,看具体调查方法了。其实方法还是很多的,Google搜出一堆语料,也可以找到方法调查,未必一定要去依靠有“代表性”的语料库和机械的统计方法。。。
 
回复: 关于语料库的一些问题

能实现统计的话,用现行无争议的方法,那么使用语料库的性质是一个自然语言的样本,但是话又说回来,经典语料库真的就具有颠扑不破的“代表性”么?我认为不可迷信语料库的“代表性”,因为这个代表性很难用具体的标准去衡量。。。

语料库的概念应该被扩充,大量语料的仓库也可以称为语料库,看具体调查方法了。其实方法还是很多的,Google搜出一堆语料,也可以找到方法调查,未必一定要去依靠有“代表性”的语料库和机械的统计方法。。。

有道理!
代表性和真实性对于语料库及研究来说是一个相对的概念,不可迷信,但也不可忽视。否则语言研究的结论和方法很容易被其他学派视为诟病。
有了具体的调查方法和研究目的,诚然,可以借助Google找到语料,比如WebCorp的平台就可以借助Googlw,AltaVista/Yahoo,能找到具体的country/domain里的词语(词项)行为,语料丰富,呈现出词语的新用法和新词的用法,但是问题是:
1. 如何解释这些新用法,是本语者的还是二语者的输出?
2.它们是本语者的偶然失误使然,还是二语者的语言错误(中介语石化)?
3.如何判定这种用法在口语体中还是书面体中的典型用法?
4.网络语言中的口语体和书面体逐渐融合和趋同的现象是语言研究的新内容,但是就某个词项而言,如何定性描述?

网络语料对于调查新词和词语的新用法有明显优势,借助Lexical Difficulty Filter (LDF, UWiLL Research Center,Taiwan研究开发)也可以把WebCorp的索引行应用在课堂教学中,但是以上问题的解决还要靠语料的代表性和平衡性。
语料库的代表性是语料库研究方法的一个重要命题,因为General English从某种程度上是不存在的,目前应用的基本上都是ESP。ESP的语言描述对语料的代表性有很高的要求,选材覆盖该领域尽可能多的Subsets(如Business English,10年前它可能不包括电子商务), Subsets语料的长度应有一定的标准。只有这样,才能更客观地描述ESP的语言使用。
 
回复: 关于语料库的一些问题

Ragan (1996: 211) pointed out small corpora compiled by teachers of their own pupils’ work are of considerable value: “the size of the sample is less important than the preparation and tailoring of the language product and its subsequent corpus application to draw attention to an individual or group profile of learner language use.” In addition, as we will see in future, size and representativeness are really useful if the corpus has been collected on the basis of strict design criteria.
As rightly pointed out by Cobb (2003: 396), “It is a common misconception that corpus building means collecting lots of texts from the Internet and pasting them all together.”

Cobb, T. (2003), Analyzing late interlanguage with learner corpora: Québec replications of three European studies, The Canadian Modern Language Review/La Revue canadienne des langues vivantes, 59 (3): 393-423.

Ragan, P.H. (1996), Classroom use of a systemic functional small learner corpus, in M. Ghadessy, A. Henry, and R.L. Roseberry (eds), Small corpus studies and ELT, Amsterdam: John Benjamins, pp. 207-236.
 
回复: 关于语料库的一些问题

As a self-renewing linguistic resource online webpage offers a freshness and topicality unmatched by fixed corpora; when analyzing relatively rare features of a language, the Web is a nearly inexhaustible resource.
Unfortunately, one must be cautious when using online texts as linguistic data. Web pages are typically anonymous and Web server location is no certain guide to origin, so it is difficult to establish authorship and provenance and to assess the reliability, representativeness and authorativeness of texts, both for their linguistic form and their content. Multilingual sites are common, as are English pages authored by non-native speakers of varying competence, raising questions about language quality and influence of the source language. Among the longer prose texts certain types predominate, especially legal, journalistic, commercial and academic prose, a much narrower cross-section of language usage than one might require. Overall, lower standards of form and content verification prevail than in printed sources. Web pages often contain a significant amount of “noise” (i.e. language which is fragmentary, repetitive, formulaic, or ill-formed, and often entire documents which have no cohesive text).
---From Making the Web More Useful as a Source for Linguistic Corpora by William H. Fletcher
 
Back
顶部