汉英sentence alignment

状态
主题已关闭, 停止回复.

oscar3

高级会员
近日在网上发现台湾大学的汉英sentence alignment(http://140.112.185.31/~sbb/segalign/segalign.htm)。

试用了一下,感觉是,如果段落不长,还可以,但是,比较长的段落处理就容易出问题。另外,对于没有标点的标题和小标题,该系统无法识别,会把这些内容划到邻近的段落去。
除此之外,本人还用过Trados的对齐插件WinAlign和雅信的YXCAM。除句子长度,标点之外,WinAlign动用了格式(format)和双语文本中的对应术语来帮助对齐,但是,本人感觉效果最好的还是雅信的YXCAM。使用YXCAM对齐语料,需要设定翻译的方向(英汉,汉英等),断句标点等。文本格式只要txt就可以了。
 

laohong

管理员
Staff member
回复: 汉英sentence alignment

这类程序的一个共同点就是想要达到自动匹配。由于翻译文本的千变万化(尤其是文学作品类的翻译),很难有那个程序能真正达到令人满意的程度。对于对齐准确率要求不高的大批量处理似乎有效,当然也可以用在对精准要求高的研究上,用它们来做预处理还是不错的。这是因为,完全脱离于人工干预和后期整理的模糊匹配只能对有限的研究目的有用。作为翻译研究来说,如果再考虑到对句子属性的标注、翻译技巧的应用等特征的要求,开发能辅助人工快速标注的对齐程序是必要的和急需的。可惜,这方面的研究还未受到重视。
 

smyle

Collector
回复: 汉英sentence alignment

颇有鸡生蛋 蛋生鸡的感觉

开发自动对齐的目的之一即为方便建立平行语料库

而其开发又往往需要已经对齐好的平行语料库用于发现规律,进行训练

不管怎样 总要有个所谓的“第一推动力”,让这个钟摆荡起来

这样想想,对目前做的人工对齐的体力活也有点干劲了 ^_^

或者 先实现CAA? computer-aided alignment?
 

armstrong

高级会员
回复: 汉英sentence alignment

近日在网上发现台湾大学的汉英sentence alignment(http://140.112.185.31/~sbb/segalign/segalign.htm)。

试用了一下,感觉是,如果段落不长,还可以,但是,比较长的段落处理就容易出问题。另外,对于没有标点的标题和小标题,该系统无法识别,会把这些内容划到邻近的段落去。
除此之外,本人还用过Trados的对齐插件WinAlign和雅信的YXCAM。除句子长度,标点之外,WinAlign动用了格式(format)和双语文本中的对应术语来帮助对齐,但是,本人感觉效果最好的还是雅信的YXCAM。使用YXCAM对齐语料,需要设定翻译的方向(英汉,汉英等),断句标点等。文本格式只要txt就可以了。

谢谢Oscar3提供这么实用的信息.
 
回复: 汉英sentence alignment

请问oscar3 如何设计“术语”来帮助对齐?最好能详细点,呵呵。感谢啊。
 

xusun575

高级会员
回复: 汉英sentence alignment

“对齐”就是手艺活,匠人,熟能生巧。:):)下面这类法规,网上下载的,我的学生干得可快啦。C友可试一试,看能几分钟搞定 C-E or E-C?

做一做,试一试:
 

附件

Last edited:
回复: 汉英sentence alignment

“对齐”就是手艺活,匠人,熟能生巧。:):)下面这类法规,网上下载的,我的学生干得可快啦。C友可试一试,看能几分钟搞定 C-E or E-C?

做一做,试一试:
这个很容易,不是这个也拿出来考人吧,呵呵。在word里以表格的拉成2列。左面英语,右边中文。然后都可以做成可以倒入trados的句库。

不知道你是用什么方法做的,不妨说出来大家学习下。
 

xusun575

高级会员
回复: 汉英sentence alignment

老洪,牛人,大牛人啊! 对您的景仰迅雷不及掩耳盗铃之势,犹如长江之水滔滔不绝,如黄河泛滥一发不可收拾的啦. :rolleyes::rolleyes:我去您那儿打工得了. 咱一联手,三两天不就能捣腾个这裤那库的,其他搞库的不都全歇菜啦?:confused::confused:
 

oscar3

高级会员
回复: 汉英sentence alignment

老洪,牛人,大牛人啊! 对您的景仰迅雷不及掩耳盗铃之势,犹如长江之水滔滔不绝,如黄河泛滥一发不可收拾的啦. :rolleyes::rolleyes:我去您那儿打工得了. 咱一联手,三两天不就能捣腾个这裤那库的,其他搞库的不都全歇菜啦?:confused::confused:
强烈抗议两个牛人组合!!!:D:D:p
 

laohong

管理员
Staff member
回复: 汉英sentence alignment

以后将上传法律文件n件,以示对Laohong法制建设的严重支持:D:D
谢谢Xusun575提供的语料!欢迎大家提供更多语料,也可以直接email给我,在线检索制作完成后就可以放在网上供大家使用了。

目前已经收到的语料有 106 篇中英对照的:
Oscar3:103
Xusun575:3 (麻黄素那篇和oscar3的重复,因此不计入。)

语料列表详见附件,发送新语料时,请检查是否已经有了。
 

附件

xusun575

高级会员
回复: 汉英sentence alignment

谢谢Xusun575提供的语料!欢迎大家提供更多语料,也可以直接email给我,在线检索制作完成后就可以放在网上供大家使用了。

目前已经收到的语料有 106 篇中英对照的:
Oscar3:103
Xusun575:3 (麻黄素那篇和oscar3的重复,因此不计入。)

语料列表详见附件,发送新语料时,请检查是否已经有了。
OK, I GOT IT LA, BUT OSCAR3 IS REALLY A GREAT CONTRTIBUTOR:p
 

xusun575

高级会员
回复: 汉英sentence alignment

请问您想做一个法律的专题库么?
it's still tentative, just having my student do the alignment of law docs rounded up from the internet. any ideas of urs could possibly be shared among c'ers here?
:p
 

xusun575

高级会员
回复: 汉英sentence alignment

谢谢Xusun575提供的语料!欢迎大家提供更多语料,也可以直接email给我,在线检索制作完成后就可以放在网上供大家使用了。

目前已经收到的语料有 106 篇中英对照的:
Oscar3:103
Xusun575:3 (麻黄素那篇和oscar3的重复,因此不计入。)

语料列表详见附件,发送新语料时,请检查是否已经有了。
检查有点烦的啦,不过"中华"一般不重复:D

郁闷,上传数量有限制?
 
状态
主题已关闭, 停止回复.
顶部