平行语料库逐句对齐是否真有必要

大家都知道,现成的双语语料库没法做到完全的逐句对齐,除非人工改译。既然做不到逐句对齐,干嘛非要浪费人力物力让它逐句对齐。能对齐的就让它对齐,不能对齐的就采用一对多或者多对一的原则进行对齐不就解决了。这在翻译中也就是分译和合译。

目前有大量的双语网站,上面有逐段对齐的文章和新闻。为何不有效的利用这现成的资源快速建立双语平行语料库呢?

其实这个帖子主要是给语料库软件开发人员看的。

上面说了双语对照的网站,这些网站中很多有逐段对齐的文章,编程人员完全可以开发这样一个软件,而这个软件带有这种功能:1。批量下载 2. 提取双语逐段对齐语料 3.纠正网页转txt乱码 4. 精细对齐

逐段对齐的文章主要有两种:1. 能够进行逐句对齐的段落 2. 不能够进行逐句对齐的段落 对于能够逐句对齐的段落就逐句对齐;对于不能逐句对齐的就采用一对多或者多对一的原则,如果不能逐句对齐的段落这样还不能处理,那就让它逐段对齐就行了。

对于精细对齐功能可以根据句子数量,核心动词核心名词为判断标准去处理。还可以根据句子中的完整语义片段让软件作出判断。当然这就需要这个软件带有海量词库。

这样制作出的语料库就更具有整体性,而且对于翻译应用更实用。
 
回复: 平行语料库逐句对齐是否真有必要

说白了,一切都依工作目的而定,离开了目的,无论是肯定还是否定的立场,都有失偏颇。
 
回复: 平行语料库逐句对齐是否真有必要

大家都知道,现成的双语语料库没法做到完全的逐句对齐,除非人工改译。既然做不到逐句对齐,干嘛非要浪费人力物力让它逐句对齐。能对齐的就让它对齐,不能对齐的就采用一对多或者多对一的原则进行对齐不就解决了。这在翻译中也就是分译和合译。

目前的平行语料库本来就是这样处理的,有大量的非一对一的情况。没有谁说要求必须完全一句对一句的。

目前有大量的双语网站,上面有逐段对齐的文章和新闻。为何不有效的利用这现成的资源快速建立双语平行语料库呢?
已经有很多人利用网站上的双语文本做平行语料库。这主要是技术界。语言学界大多还是倾向于用已出版的原文和译本建双语库。

其实这个帖子主要是给语料库软件开发人员看的。

上面说了双语对照的网站,这些网站中很多有逐段对齐的文章,编程人员完全可以开发这样一个软件,而这个软件带有这种功能:1。批量下载 2. 提取双语逐段对齐语料 3.纠正网页转txt乱码 4. 精细对齐

逐段对齐的文章主要有两种:1. 能够进行逐句对齐的段落 2. 不能够进行逐句对齐的段落 对于能够逐句对齐的段落就逐句对齐;对于不能逐句对齐的就采用一对多或者多对一的原则,如果不能逐句对齐的段落这样还不能处理,那就让它逐段对齐就行了。

对于精细对齐功能可以根据句子数量,核心动词核心名词为判断标准去处理。还可以根据句子中的完整语义片段让软件作出判断。当然这就需要这个软件带有海量词库。

这样制作出的语料库就更具有整体性,而且对于翻译应用更实用。

上面说到,这个并不难。已经有很多人就是这么做的。其中人工校对的工作量比想象的要大。不做不知道。

另一问题,目前来看,获得大量文本已经不是一个问题。文本如何才能建一个内容可靠,合理取样又足够大的库。
 
Back
顶部