艰深!有没有比较两个翻译语言译本的软件?

patwwh

初级会员
我有两本书,一本中文,一本英文。
翻译的基楚单位是固定的:句子
它们各有一万句,彼此是一一对应的。
以英文译本为标准,我想找出所有对应该英文字的中文翻译,并得出整个列表。
(如果可以再贪心一点,能够同时得到它们的词频就更好了 )

例如:
happy 高兴,快乐,开心
glad 高兴,乐意
Pleasure 开心
Love 爱,深爱
... ...
... ...

有没有可以“辅助”以上工作的软件?
 
Sentence alignment is not sufficient for this purpose. You will need to get the parallel texts aligned at the word level.
 
回复:艰深!有没有比较两个翻译语言译本的软件?

这个工作量就大了。要达到句子对齐,即便有了自动对齐工具,还需要人工一句一句去校对,要是作词层对齐,还不得一个词一个词去校对。
 
问题的关键,翻译也多少是一种再创作,不大容易在词这个层面上对应的。
 
回复:艰深!有没有比较两个翻译语言译本的软件?

如果硬是要做的这样的对齐也未尝不可,只是词层的对齐不可能象句子对齐那样一个萝卜一个坑,一一对应,很可能会有一些无家可归的流浪儿。另外,不知道这样的做的目的是什么?
 
There have been some attempts for word or multiword alignment -

http://www.corpus4u.org/forum_view.asp?view_id=853&forum_id=20

also

Piao, Scott Songlin (2002), 'Word alignment in English-Chinese parallel corpora'. Literary and Linguistic Computing 17(2), Oxford, UK, pp. 207-230.

The 863 parallel corpus also has a word-aligned version (Chinese-English, Chinese-Japanese).
 
You are right. It is nearly impossible to have all words aligned in word alignment.
 
我要做那个工作的原因有很多,其中最主要原因之一:
假设有一本经典书藉,原文为拉丁文,有无数的语言译本。
要研究这本书,我会为原文做一个 Concordance,而当然不是为中文译本而做。
然而,现在的目标是更大的。不单是我研究,也要让所有阅读这本电子书的用户能够自行研究。他们会使用的介面是中文/译文,而不是原文。因此必须另外建立出一个 译文-原文的关系表(有很多词语不免是一对多,多对一的),这样原文 Concordance 及 词频才能产生作用。

电脑软件能够辅助的条件,我构想它的运作逻辑可以是:
1. 先定出极常用词的所有翻译词表(如:代名词、助词),以便去除大半的配对及规范时间
2. 先根据外加的整全的同义词词典,以便加速规范
3. 先从整本书较短的句子入手,这样容易先得出一些词的翻译(就是原文词语与翻译词语的关联性系数)。这些词可以帮助分解其他较长的句子。
4. 译文常用词数目通常多极有限,如果那本书的句数越多,便越能够得出理想的结果。

当然,我还是维持起初所提的基A前设:
‘原文与译文各有数万句,彼此是一一对应的’
(我估计世上只有一些很重要的经典是用这种译法。大部份书都是每“段”彼此对应)
这一前设减低了这重软件使用的广泛性,亦因此减低了它出现的可能。
 
想法很好,做起来不太容易。且不说语言和技术难度,什么书值得花这样的时间和精力?圣经的译本够多了,研究它的人成千上万,而且教会还有强大的资金支持,也没有见到他们有类似想法。
 
请问楼主能否试着把下面的两个译文做到词的层面的对齐?


原文: 活 冤孽 妙尼 遭 大劫,死 雠仇 赵妾 赴 冥曹

霍译: Adamantina discharges a karmic debt and receives a blow from the Hand of Providence; Aunt Zhao concludes a deadly feud and sets out on the road to the Nether World.

杨译: A terrible disaster befalls Miaoyu; Nursing enmity concubine Zhao is haled off to hell.
 
Back
顶部