语料库语言学的一家之言(转)

有位语言学教授认为:对语料库语言学,看好它的是统计学意义上的证明。拿计算机翻译来说,以前以来规则推导,所以语言学家绞尽脑汁要为计算机提供足够清晰的规则。在这方面花了很多功夫。但是随着计算机硬件技术的进步,大规模的存储问题已经解决,因此简化规则依赖语料支撑已经成为一种捷径。只要搜索引擎足够强大,只要有足够的语料,几乎任何句子都能找到相似匹配的译文。但这在本质上并不是人工智能,并不是建立在规则推导或”思维“的基础上的成功。对此,语料库语言学对机器翻译来说,有贡献,但并不是本质性的贡献。语料库的方法目前的比较靠谱的功能在于帮助研究者寻找或发现研究者未曾注意到的一些现象。就好像我们以前研究某种结构,由于研究者本身眼界的限制,所能看到的现象有限,需要最某一文本做穷尽性语料搜集一样。语料库能帮助我们大大缩减寻求语料的时间和精力。这是不可否认的。

至于从语料库中提取规则,最后还是由研究者来进行。
 
回复: 语料库语言学的一家之言(转)

What corpora provide, according to Gries, is essentially frequency information - frequency of words, collocations, and colligations.
 
回复: 语料库语言学的一家之言(转)

Frequency information is essential if corpus linguistics is understood from a computational of methodological point of view; context or contextual theory of meaning on the other hand is the linguistic or philosophical foundation on which corpus based language studies are based.

If corpus linguistics were concerned with frequency information only, it wouldn't be highly valued by linguists at large.

The dominant part of corpus studies in the U.S., generally speaking, go along the computational tradition.
 
回复: 语料库语言学的一家之言(转)

You could also say that frequency of collocation or colligation has factored in the dimension of contextual information.
 
回复: 语料库语言学的一家之言(转)

语料库语言学对机器翻译来说,有贡献,但并不是本质性的贡献。
Statistical MT practioners rely very little on rules,and alas, they happen to be the most succeful people in the MT field so far. But corpus linguistics do have a role to play in computer-aided human translation. So the news is not too bad.

语料库的方法目前的比较靠谱的功能在于帮助研究者寻找或发现研究者未曾注意到的一些现象。
To me, not only information we haven't noticed, but also some linguistic phenomena we have noticed but still need a systematical investigation/treatment,such as variation across genres.

Yes, I agree that human interpretation is essential for frequency information to complete a research circle. And a corpus can often give corpus linguists a view on frequency not readily accessible to other linguists who do not employ a corpus approach.
 
Last edited:
回复: 语料库语言学的一家之言(转)

I think the debate on meaning/frequency is not necessarily irreconcilable. It should be not too absurd to assert that meaning is closely related to frequency (if we only look at the moment when we define we are in love). If we take the viewpoint that meaning is essentially a probability phenomenon involving some number crunching, then we are doomed to dig more meanings out of raw frequencies in the future.
 
回复: 语料库语言学的一家之言(转)

1.“频数”这一概念,其实只是被语料库语言学无限放大的一个概念。其实高频这个概念自古有之,很多没接触过语料库的人,在搞语言教学的时候,也会说:这个词在考试中是“高频词”;这句话生活中很“常见”;那个人“总说”,打啊,杀啊。
2.“计算机”----计算机也是被语料库语言学无限放大的一个工具。其实当我们进入计算的时代,无论是工作和生活都不可避免的要使用计算机。所以,无论哪个学科,无论英语的哪个流派都可以使用计算机,事实上,他们也都在使用计算机。很多 在国外研究语言学的人都知道,西方很多国家的语言研究非常“工科化,计算机化”。
3.实际上看多了一些对语料库语言学的批评会发现一个问题。我们换个角度就会发现,语料库语言学的“理论研究”相对于其他一些英语理论学科来说的确有些“薄弱”。几个概念,几个统计方法一些速成的语料库研究者短时间也基本掌握,也能写出一篇语料库的论文。当然深度不同,这里不做博弈了。也就是说,语料库如果要做为一门独立的语言学学科,它在理论研究和创新上还需要突破和不断完善。

比如多模态语料库,我们目前谈论的很高端的一个技术。但其实你仔细寻找会发现,民间的很多英语学习程序很早就体现出这个模式,当然他们的开发者不会往语料库这个说法上靠,他们会认为这个是计算机技术的一种彰显。但有人会说语料库我们是为了一定的研究目标、搜集汇总而成,经过多个工序。。。和他们的不一样。。。其实我想表达的是一种意识流。。。不是字句的博弈。

当然还要请专家和高手指点迷津。
 
回复: 语料库语言学的一家之言(转)

参考参考顾曰国老师的多模态语料库研究,就会发现语料库语言学绝非就是弄几个频数出来。
 
Back
顶部