句对平行语料库

oscar3

高级会员
厦门大学的英汉平行语料库(http://xmuoec.com/gb/hanyu/hanyu/data/corpus/index.htm)为句对语料库。oscar3试用了一段时间,主要是用来解决自己在翻译中和教学中遇到的问题。从自己的经验来看,这是一般的双语词典望尘莫及,而无法替代的。但是,这样的语料库除了对翻译实践和翻译教学有帮助外,还有什么别的学术价值没有?另外,这类语料库给出的频次数据能说明什么问题?[emq39]
补充,句对平行语料库在别的地方似乎也有,比如,中科院等地方。只是那些地方的句对语料库没有用过,不敢乱发议论。
 
据本人所知,国内的语料库,除了clec公开出版发行之外,好像还没有见过别的语料库公开发行过。当然我的信息不一定很准确。但是,不管怎么样,给人的感觉,肯定是非常少见的,非常稀罕的事情。本站提到的有些语料库有些是可以在线检索的。具体的你得查询一下相关的帖,一般都有交待。
我们干脆提个建议,能不能将提到的语料库分一下类,列个表,并将一些信息包括进去,如how to obtain access to 这些信息,便于大家使用资源。要不然,资源散布在各帖中,要查询还真不容易。因为本站的检索并非全文检索,只检索标题和作者。不知可否?
 
Oscar3的看法是,这些句对语料是不是从事机器翻译的专家用来训练和检验翻译系统的,而不是真正意义上的语料库。要不然,语料库的取样如何控制,这balance和representativeness怎么解决?虽然厦门大学的英汉双语语料库据称有12万多对句子,但是这12万多对是怎么分布的,似乎没有说明。
 
回复:句对平行语料库

以下是引用 oscar32005-8-3 17:46:29 的发言:
厦门大学的英汉平行语料库(http://xmuoec.com/gb/hanyu/hanyu/da...翻译教学有帮助外,还有什么别的学术价值没有?另外,这类语料库给出的频次数据能说明什么问题?[emq39]
补充,句对平行语料库在别的地方似乎也有,比如,中科院等地方。只是那些地方的句对语料库没有用过,不敢乱发议论。

也可以把“广义词语搭配”的量化研究方法用于平行语料库的分析,可发现一些潜藏的跨语言的词语行为规律。。。
 
Back
顶部