PDA

查看完整版本 : 使用Trados WinAlign对齐语料的一点感想


oscar3
2007-07-02, 04:21 PM
受到Xiaoz的贴中启发,近日有时间再次试验英汉双语句级对齐处理。使用的工具为EditPlus和Trados组件WinAlign。
首先,使用EditPlus将英汉语篇作好段落对齐,并用<p>和</p>分别在段前和段落结尾处标记。当然,不作这样的标记似乎也没有问题,不过,作段落标记有助于下阶段在WinAlign中句级对齐校对。因为,作句级对齐校对不可能细读,而段落标记就起着参照作用。
接下来,将作好段落对齐的双语语料加入WinAlign。在xiaoz的贴中告诫大家不要用MSWord。我的体会是,不用word无法工作。原因是WinAlign只接受rtf,doc,xml,html等格式。首次我在EditPlus中将文件存为XML,结果WinAlign不认识。而用doc或者rtf则很顺利,要用这两种格式就得用MSword。
在用WinAlign时自动对齐时,英汉语料前面的对齐效果比较好,到后面就比较混乱了,不知道是什么原因。
WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,即将双语文件中对应的双语术语列出置于一个文本文件中(锚点词),作为词典供WinAlign调用;另外,双语文本中的段落标记(tag)也有助于提高自动对齐精确度。
在中国大陆公开的文献中,有人曾经介绍用文本处理软件,通过find,replace,和断句标点来作句级对齐。两相比较,oscar3认为,还是使用WinAlign比较轻松。

laohong
2007-07-02, 04:48 PM
Trial and errors is the way for us to learn to become expert.

oscar3
2007-07-02, 04:53 PM
Trial and errors is the way for us to learn to become expert.

Thank you, laohong, for your encouragement. I am trying a lot, although I am not sure if I will become an expert.

oscar3
2007-07-02, 05:26 PM
在使用xiaoz编写的dealigner将WinAlign导出的bilingualtext进行分离,在汉语文本中还是留下了一些杂质,经分析,只要是有阿拉伯数字的地方就会有“{/f4” 等杂质。情况如下图:

Hi_Jane
2007-07-02, 05:36 PM
用WinAlign对齐的语料,还可以导入句库中,指导翻译.想想吧,在翻译文本时,有了句库的帮助,就好象请了一位诲人不倦的大师在旁指导,爽呆了呀!

oscar3
2007-07-02, 06:20 PM
问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:

xiaoz
2007-07-02, 06:56 PM
The programs I write are always specific to the format of the input data. Numerals may not have been tagged optionally in WinAlign-ed text for my program. I am not sure which script you mean. If you can send in a sample of your WinAligned text and my program script, I will have a look for you.

oscar3
2007-07-02, 09:04 PM
问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:


有个误会,经肖博士编写的程序处理过的文本长度为改变,只是在对齐时顺序有了少许变化,造成判断失误。

xudekuan
2007-07-03, 08:18 PM
请问如何得到winalign

oscar3
2007-07-03, 09:16 PM
请问如何得到winalign

网上有deomo版本,下载Trados freelance的试用版。

xudekuan
2007-07-03, 11:27 PM
真是太感谢您了,您能把网址贴上吗?
谢谢

Hi_Jane
2007-07-04, 08:03 AM
全套的Trados组件试用版:
http://www.goldenhopes.com/down.html

smyle
2007-07-04, 10:53 AM
用dejavu还可以直接从csv,xls转为TM

xudekuan
2007-07-04, 11:17 PM
好像,paraconc也能进行对齐,不知道谁试过?

xudekuan
2007-07-04, 11:40 PM
问题汇报
在使用xiaoz编写的dealigner清除WinAlign对齐过程中留下的tag时后,发现一个奇怪的现象。原来导入到WinAlign中的文本经过dealigner处理后,英汉文本似乎都比原来缩减了。不知道什么原因。不知道肖博士在编写程序的时候是不是设定了文本的上限长度:confused:

请问,老肖先生的软件如何获得?

Hi_Jane
2007-07-05, 09:08 AM
肖教授写的程序在下面链接的第49楼:
http://www.corpus4u.org/showthread.php?t=2579&page=5

xudekuan
2007-07-05, 11:44 AM
谢谢呀,真是好人多!

oscar3
2007-07-06, 09:41 AM
谢谢呀,真是好人多!


有同感。以往,我向别人索取文献,常常遭到沉默的拒绝。自从来到corpus4u之后,经常都有感动,几乎改变了我的人生态度。:)

armstrong
2007-07-06, 11:48 AM
有同感。以往,我向别人索取文献,常常遭到沉默的拒绝。自从来到corpus4u之后,经常都有感动,几乎改变了我的人生态度。:)



是的,我也有这种感觉.

maggie0153
2008-12-28, 01:45 PM
oscar3在文中写到:WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,另外一个是段落标记(tag)吗?
段落标记不是您自己加的吗? 不知道您说另外一个微调工具是不是就是您自己填加的段落标记<p>

感谢回复

oscar3
2008-12-28, 03:17 PM
oscar3在文中写到:WinAlign有两个微调工具可以帮助提高自动对齐效果,一是term list,另外一个是段落标记(tag)吗?
段落标记不是您自己加的吗? 不知道您说另外一个微调工具是不是就是您自己填加的段落标记<p>

感谢回复

Thank you for your interest in my posting, actually, I haven't used WinAlign for quite a while, because I found it is not an ideal tool for alignment. I now use a alignment tool designed by a Chinese business. However, as for the paragraph mark <p>, you are absolutely right. Good luck!

maggie0153
2008-12-28, 08:55 PM
我知道您在使用雅信,感谢您的国产软件的支持。雅信4.0 不知道谁用过。