词对齐 中英平行语料库问题

我是个语料库方面的新手,实验室最新想搞个基于词对齐 的 中英文平行语料库,让我来接手,手头资源,有几个电子词典的电子版,想把几个词典整合成一个词对齐的中英文平行语料库,大家给点意见吧,目前国内外有无这样的资源可以利用?或者有无其他可以参考的资源。
如果没有,我该如何着手建设这样的基于词对齐 的 中英文平行语料库呢?谢谢各位!
 

xusun575

高级会员
回复: 词对齐 中英平行语料库问题

我是个语料库方面的新手,实验室最新想搞个基于词对齐 的 中英文平行语料库,让我来接手,手头资源,有几个电子词典的电子版,想把几个词典整合成一个词对齐的中英文平行语料库,大家给点意见吧,目前国内外有无这样的资源可以利用?或者有无其他可以参考的资源。
如果没有,我该如何着手建设这样的基于词对齐 的 中英文平行语料库呢?谢谢各位!
中英文词对齐平行语料库那可是世界级难题.能词与词对齐的只能是在线词典了.
 

xujiajin

管理员
Staff member
回复: 词对齐 中英平行语料库问题

英汉语词对齐本身是个伪命题。

英汉语言之间是不可能存在词对齐,因为英汉语词的概念和书写形式有本质不同。
 
谢谢各位!这个“词对齐平行语料库”看来是行不通了。要是把几个电子词典资源整合起来,实际上就是 英汉双语词典了,这样应该是不是更合适?双语词典的话,这个研究应该是很多了,有没有比较公认的可供下载使用的词典呢?项目的其他人要用我做的词典将中文的features translate 成英文。
 
回复: 词对齐 中英平行语料库问题

我试了一下,
one spring morning many years ago.
多年前一个春天的早晨
比如里面的“多年前”在汉语里一个词,但英语里就是三个词了,many,years, ago。
many years ago在英语里是短语,或者是意义单位吧。
所以,这样的话,就是没法词对齐了。
刚开始只看到论文里说,平行语料库的对齐级别有:词、短语、句子、段落、篇章。但实际建库多是句子对齐。原来词对齐是个伪命题呀。
 
顶部