查看完整版本 : (求教)求以标准通用置标语言辅助人工标注的软件
Hi_Jane820712
2007-01-05, 09:54 AM
计划用国际标准通用置标语言SGML标注语料库,但不知有无辅助人工标注SGML的软件?
laohong
2007-01-06, 02:30 PM
先问几个问题:
1、标注什么样的文本?
2、要标注什么信息?
3、标注后打算用什么工具来检索?
4、有多大的工作量以及多少人力和时间可以投入?
....
xujiajin
2007-01-06, 05:26 PM
老洪问得好,其实就是在开始之前,先要明确自己为什么要这么做?这么做有什么用?而我们往往是听别人说要sgml和xml就一股热情地去做了。实际上,自己将来打算怎么用,怎么检索也并不清楚。
Hi_Jane820712
2007-01-06, 07:41 PM
非常感谢楼上两位专家的垂询!谨回复有关问题如下:
一、标注文本。我要标注的是《红楼梦》霍译本、杨译本和中文原文(人民文学出版社1982年出版)。
二、标注信息。计划对以上三种文本进行语言、文学和文化方面的标注,标注后的语料库可以进行霍译本、杨译本有关语言、文学和古代文化等方面的翻译检索,并进行对比研究。在这方面,我非常渴望借鉴深圳大学一九八六年研制成功的《红楼梦》多功能计算机自动检索系统的标注成果,但是经多方与深圳大学电话咨询,十年后的今天已无人能准确说出此检索系统的具体去向。愿只愿这个系统还存在着,只是我没有在正确的时间请教正确的人。
三、检索工具。我很喜欢PARACONC的界面,因而选它为主要的平行翻译检索工具,laohong保佑PARACONC支持SGML检索呵:)语言方面的数理统计不知用什么软件好,请laohong指教。计划用SGML进行标注,只是因为做就做规范之事,只是为了今后有意之人,可以踩着我铺就的路继续往前走,而不必像我这样遍寻深圳大学《红楼梦》检索系统而不得,就是得到了,天知道我是不是看得懂它的标注。
四、工作量及时间投入。现在最大的工作量在于文本录入和标注,如果能找到深圳大学《红楼梦》检索系统的标注语料就好了,我们就可以埋头工作,而不必瞻前顾后了,我盼望能出现奇迹。我有一班学生可以帮我,他们都极聪慧,请 laohong不要说我使用“廉价劳动力”呵:)如果我是学生,我也愿意在这方面帮助我的老师,非常乐意!现在的问题是他们的老师正摸不着北呢。投入时间看情况,这个工作为兴趣所致,完全没有赶时间结题的烦恼,我们会尽全力、尽情享受探索之乐。
laohong
2007-01-07, 04:54 PM
如果要标注《红楼梦》,那就建议你再考虑一下,因为2005国家社科基金支持的燕山大学的红楼梦中英对应项目的语料标注工作已经接近尾声了。该项目的酝酿是在5、6年前了,在2005年获得国家基金之前电子版的语料也基本收集齐整,而且已经有了一些前期研究成果。在过去的两年里,主要做到了原文与通行的三大译本(霍译、杨译、乔译)的文本在段落和句子层面的对齐(邦译的文本正在处理)。每个汉语句子和英文句子也加注了句子类型、语言特色、修辞、翻译技巧等内容。语料的检索既可以使用Paraconc等第三方软件,也可以使用用户自己定制的工具。为方便更多用户在线使用,目前正在完成基于网页的检索。语料的准备、标注、规范、转换、检索等方面的工具和设计大部分都是由我本人完成的,实际语料标注是由燕山大学外语学院的部分教师和研究生花费近两年的时间完成的。只是由于种种原因,语料目前还不能对外开放。
这样的一个项目不是想一想就可以动手的,得有很多准备和筹划工作。即使标注本身也有很多问题需要解决,比如说,杨译、霍译本来用的原文就和人民文学出版社1982的版本不一样,你怎么去对比和评述翻译的特色呢?有些章节、段落、句子,译者都是根据自己对“剧情”、“版本”、“场合”的理解而做了改动的,要如何对比各个译本?
另外,标注设计与规范、工具的开发和使用、人员培训、项目管理等等问题都要考虑到。就人力来说,学生的参与对他们来说是非常难得的锻炼,但是也不能期望他们每个人都真的愿意投入到枯燥的标注工作中。心态是一个方面,知识是另一个方面,经验和技术的运用也很重要,因此训练是必须的。我曾经两个暑假从新加坡飞到秦皇岛培训项目参与人员,燕山大学也先后邀请了顾曰国、冯志伟、Wolfgang Teubert等教授前去开语料库方面的讲座。凡此种种都使参与的师生获益匪浅,项目的进行才能顺利。
之所以还问你个人的时间是因为项目负责人一定要亲力亲为,光顾不问或光问不顾都是不可能有好的语料的。既然你有时间、人力和财力,建议考虑其它文本。如果需要,本人可以在技术上、经验上提供一些支持。相信坛中很多人也愿意献计献策。
xiaoz
2007-01-07, 09:15 PM
诚哉斯言
Hi_Jane820712
2007-01-09, 02:54 PM
诚哉斯言
laohong是热心人,对热心人的回报,不是简单两个字“谢谢”可以了得的。
见过高人,还没见过laohong这么合我心意的高人:)。但恕我直言,《红楼梦》涉及中国文化范围极广(如饮食、家居、诗辞、服饰、宗教、官制、戏剧、书画、园林、中医、礼仪以及香文化等等),而翻译又与文化密不可分,如此大型语料库如不做相应标注,深以为憾。
Hi_Jane820712
2007-01-09, 02:57 PM
另外,标注设计与规范、工具的开发和使用、人员培训、项目管理等等问题都要考虑到。就人力来说,学生的参与对他们来说是非常难得的锻炼,但是也不能期望他们每个人都真的愿意投入到枯燥的标注工作中。心态是一个方面,知识是另一个方面,经验和技术的运用也很重要,因此训练是必须的。我曾经两个暑假从新加坡飞到秦皇岛培训项目参与人员,燕山大学也先后邀请了顾曰国、冯志伟、Wolfgang Teubert等教授前去开语料库方面的讲座。凡此种种都使参与的师生获益匪浅,项目的进行才能顺利。
之所以还问你个人的时间是因为项目负责人一定要亲力亲为,光顾不问或光问不顾都是不可能有好的语料的。既然你有时间、人力和财力,建议考虑其它文本。如果需要,本人可以在技术上、经验上提供一些支持。相信坛中很多人也愿意献计献策。
总是幸运的,在我需要时间另找感觉时我病了,时间就大把大把地来了。
我读英文原著中译本,总觉得语言不如中文原创流畅,有时竟至不忍猝读,译文终不如中文原创那样该简时惜墨如金,该繁时浓墨重彩,字正腔圆、文通句顺;将心比心,英美人士读我们中文原著英译本,难免也会有这种生涩感。那么在进行英译创作中,该如何译写原著人物心理、刻划原著人物行为,做到既忠实于原著,又不致时时酸麻外国读者的神经,从而使中国文学流传久远呢,为什么不听听英美著名作家的意见呢。
手头刚好有一光盘,内含英文世界名著1000部,其中英语文学经典文本692部。如果能对这些文本进行“描写类型”标注有多好!比方在翻译人物悲伤情绪时,可检索692部名著中所有“悲伤”情绪标注,显示其内容,统计其用词、搭配、语法结构、语句的内在逻辑等等等等,用以指导我们的译文创作,岂不有趣?研究成果将会是一串串的,葡萄般滴。
有了这个愿望,我们更加要祈祷健康长寿,629部名著的标注呀:)……laohong,我先做《简爱》好吗,我特喜欢简。
laohong
2007-01-09, 04:12 PM
你的想法很好,只是692部太多了,很多人这一辈子也没读过那么多书。不必贪大贪全,有代表性就行。可以先从《简爱》入手,练练手艺,等时机成熟再扩大也不迟。
另:
关于红楼梦的标注,你提到的文化方面的特征(如饮食、家居、诗辞、服饰、宗教、官制、戏剧、书画、园林、中医、礼仪以及香文化等等),问题不是有没有想到,而是如何妥善处理。试想想,如果没有句子层次的对应标注,如何才能迅速找到几个不同译者怎么处理“红尘”这个词的翻译的?如果连这也做不到,何谈深层次的研究?在做好了句子层面的对应后,在中英文本中标注和检索你提到的特征是不是更容易了?所以,目前的句子对应标注实际上是在为以后的深层次的标注和检索打基础,也希望对不同角度的再研究提供一个新的平台。
Hi_Jane820712
2007-01-10, 04:50 PM
试想想,如果没有句子层次的对应标注,如何才能迅速找到几个不同译者怎么处理“红尘”这个词的翻译的?如果连这也做不到,何谈深层次的研究?在做好了句子层面的对应后,在中英文本中标注和检索你提到的特征是不是更容易了?所以,目前的句子对应标注实际上是在为以后的深层次的标注和检索打基础,也希望对不同角度的再研究提供一个新的平台。
laohong所言极是!!
有没有考虑过出“光盘版”红楼梦英汉语料库?想买。
网络版也许会有诸多限制,比如限制检索方IP地址、限制检索文本范围、限制显示检索结果…..
Hi_Jane820712
2007-01-10, 04:51 PM
......不同译者怎么处理“红尘”这个词的翻译的......
哪管“红尘”,语料库一出来,先查“云雨”:)?……
Hi_Jane820712
2007-01-10, 04:53 PM
不必贪大贪全,有代表性就行。可以先从《简爱》入手,练练手艺,等时机成熟再扩大也不迟。
谢谢laohong!计划大体分下列几个步骤完成此次建库:
1.清除文本噪声。
2.中英文本句子层面对齐(如有余力,再标注词类、句法)。
3.拟定《描写分类标注方案》。
4.标注中英文本。
5.试验检索。
laohong说得对,凡事亲力亲为才能真正发现问题。现在尚未开工问题已如泉涌,难受。待我把一个个问题梳理清楚了,再拿来请教laohong,可好?如有幼稚露拙之处,请多海涵。
众C友如有兴趣,可找来喜欢的文本,在laohong及其他专家的指导下,排除困难、分享经验,一步步通关达标,也是乐事!
Hi_Jane820712
2007-01-10, 04:54 PM
Laohong您好!《简爱》中英文本已找到。中文本很齐整、规范;英文文本一行一个硬回车,后用“文本整理器”(从我们这个论坛下载的:))一键搞定,那叫一个爽!
文本消除噪声工作已完成:)
请教Laohong:用何软件做句子层面对齐,谢谢!
laohong
2007-01-11, 12:28 AM
首先应该把原文和译文的每个章节存成一个一个独立的文件,比如,Jane_C001.txt, Jane_E001.txt.....。这样方便后面的处理。
要做到句子对应,先得做好段落对应,因为译者并不是简单地把一段就翻译成一段,有时候,一变多,有时候多合一。因此,建议先把段落标注出来。具体做法如下:
1、段落划分:
先得决定以中文还是英文为基准来分段。既然你的文本是先有英文原文后有汉语翻译,就应该以英文原著为基准分段。
2、先给中文加段标:
这里以在EditPlus里处理为例说明。建议每行一个段(用硬回车分段),完成后,在Search菜单里选Replace, 然后在Find What 里填入“^(.)”(不要引号,且全部英文拼写,下同),在Replace with里填入“<P>\t\1”,在Regular Expression前打勾,最好敲 Replace All就得到每段都有段落开始标记<P>的新文本。
3、再给译文划分段落:
根据原文的段落来决定译文的段落。需要阅读原文段落的起始和结束句子,然后在译文中找到对应的句子,用硬回车分段。同样,一行一段。完成后,用第二步的方法给译文加上段落标记。
等你做好了上述工作,咱们下回再讲如何做句子对应。其实,做到了段落对应,就基本上可以用Paraconc来检索了,只是如果段落太长,找对应的检索项还是麻烦。
xiaoz
2007-01-11, 01:23 AM
恭喜老洪开门收徒!学费建议交新币。
armstrong
2007-01-11, 09:10 AM
迫切想知道如何进行句子对齐,请Dr.Hong赐教!
谢谢!
laohong
2007-01-11, 11:47 AM
迫切想知道如何进行句子对齐,请Dr.Hong赐教!谢谢!
肖教授不是说要收学费吗?子曰:“自行束脩以上,吾未尝无诲焉。”
这句话很多人理解成了:“只要学生自行送给我十条干肉,我就没有不教他的。”是因为把夫子的话断句成了:“自行\束脩\以上”(“自己带着\薄礼或学费\来见我。”),必然导致上述理解。
当然,也可以断句成:“自\行束脩\以上”。古代男子十五入学,所备之礼即为“束脩”,行此礼之人的年龄用“行束脩”称之。(《后汉书·延笃传》中,汉人注“束脩”为“年十五已上”)如此,孔圣语意则为“从十五岁以上的人,我是没有不教的。”可见,孔圣有教无显,无论贵贱。
laohong
2007-01-11, 11:51 AM
再加一条:
说到孔子那是世界上第一个开补学班的人了,不仅有教无类,连补习费的多寡,可享受到的福利也都规定的一清二楚了:
$30 三十而立——只交了三十两银子的人只能站着听课
$40 四十不惑——交了四十两银子的人可以发问,直到你没有疑问为止
$50 五十知天命——交了五十两银子,那你就可以知道明天考试的命题了
$60 六十耳顺——能出得起六十两这个价格的人,老师可以讲些你喜欢的话给你听,让你耳顺
$70 七十从心所欲——只要你交了七十两银子,你上课想躺着坐着或来与不来,都随你高兴
Hi_Jane820712
2007-01-11, 04:55 PM
恭喜老洪开门收徒!学费建议交新币。
欢迎肖教授来小楼视查,请坐!请上坐!:)
“闻君一席言,胜读十年书”,我会珍惜机会!只是辛苦了我们亲爱的laohong教授……
对了,我手头只有人民币,请肖教授帮忙兑换新币。
Hi_Jane820712
2007-01-11, 04:56 PM
$30 三十而立——只交了三十两银子的人只能站着听课
$40 四十不惑——交了四十两银子的人可以发问,直到你没有疑问为止
$50 五十知天命——交了五十两银子,那你就可以知道明天考试的命题了
$60 六十耳顺——能出得起六十两这个价格的人,老师可以讲些你喜欢的话给你听,让你耳顺
$70 七十从心所欲——只要你交了七十两银子,你上课想躺着坐着或来与不来,都随你高兴
:):)笑翻了!!!
Hi_Jane820712
2007-01-11, 04:57 PM
laohong您好!《简爱》中英文本已按38章做成了76个独立的中英TXT文件,分别命名为
Jane_C01.txt,
Jane_E01.txt,
……
Jane_C38.txt,
Jane_E38.txt..
《简》的中译本段落与原文原本就是对齐的,真让人省心:)。EditPlus里显示段落顺序号,中英文段落顺序号应是对应的,如果不对应,一定是某一文本空行或多或少的问题,很容易纠正;如果再不放心可以抽样核对中英段落是否对齐,那就万无一失了。
laohong的指示简明扼要,真好!
请教laohong:我们只做了段首标记<p>,需要做段尾标记<\p>吗,如何用EditPlus替换?谢谢laohong!
Hi_Jane820712
2007-01-11, 05:05 PM
迫切想知道如何进行句子对齐,请Dr.Hong赐教!
谢谢!
我们共同的心声呵!!
xiaoz
2007-01-11, 06:32 PM
老洪开班既带着教具有带着玩具,有得学有得玩。学费也就10条干肉或40两银子 -- 不建议交40两以上,那是弯门邪道。
xiaoz
2007-01-11, 06:39 PM
By the way, for sentence alignement, you might wish to try Trados WinAlign. It appears working well with modern Chinese (see the screen shot in the attachment). In my test, the 1-to-2 and 2-to-1 alignments are all correct. I have used the default settings in this test, you can also define sentence boundraries if you like (e.g. do you consider semi-colons, exclamation marks etc as sentence markers?)
laohong
2007-01-12, 12:17 AM
......我们只做了段首标记<p>,需要做段尾标记<\p>吗,如何用EditPlus替换?谢谢laohong!
有很多简单的办法做这样的替换,比如说用Excel打开你的文本,在第一栏中每个单元格里都是<P>,第二栏是文字,第三栏是</P>,完成后存成文本文件就成了。不过这样来处理78个文件,得一个一个来,太麻烦了。这里还是用EditPlus的正则表达式(Regular Expression)来做,一次性搞完(建议先把你的文件备份,以防在进行下面的处理时出错):
1、一次打开78个文件:
到你存放那78个文件的文件夹去,敲菜单里的编辑(Edit)健,选“全选(Select All)”(这也可以用热键组合ctrl+A得到),然后鼠标右键点其中的一个文件,再选择EditPlus,这样就把所有文件一次打开了。
2、全部替换:
敲Search, 选择Replace, 在Find What里填入“<P>”,在Replace With里填入“</P>\n<P>”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;
3、整理结果:
敲Search, 选择Replace, 在Find What里填入“\n</P>”,在Replace With里填入“\t</P>”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样把</P>标记都移到<P>同一行去了
敲Search, 选择Replace, 在Find What里填入“^</P>\n”,在Replace With里清空,啥都不填入,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样就去掉了每个文本第一行的那个</P>标记
敲Search, 选择Replace, 在Find What里填入“([^>])\n”,在Replace With里填入“\1\t</P>\n”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样给每个文本最后一行加上了个</P>标记
最后敲File, 选择Save All,就得到了78个有开始和结尾段落标记的文本。基本上就可以用ParaConc来检索了。
肉干准备好了吗?明天记得叫家长拿来,最后一次警告,不然仿效西安邮电学院:欠学费者不准参加考试!
Hi_Jane820712
2007-01-12, 08:22 AM
laohong早上好!每早一上网就能看到您的答复真好,您很认真,谢谢!
刚好现在就有两包麻辣牛肉干,来,您一包我一包,先吃着再说,爱吃辣不…
还有,laohong,太阳怎么这么早就去亲近您?
Hi_Jane820712
2007-01-12, 08:27 AM
By the way, for sentence alignement, you might wish to try Trados WinAlign. It appears working well with modern Chinese (see the screen shot in the attachment).
谢谢您为我打开了一扇门,我会查寻Trados WinAlign软件及用法。
Hi_Jane820712
2007-01-12, 08:29 AM
前两天过于急于求成,现在发现第一阶段消除噪声工作有疏漏,已做段首标记的TXT文件里竟有英语单词拼写错误,打算再对单词拼写全面检查一遍,不然真担心会把库建成漏斗、把楼盖成比萨斜塔。但TXT文件不显示拼写错误,想把TXT文件内容一个个剪贴至WORD文档,根据WORD文档的拼写错误标识改好后,再剪贴回TXT文件。行吗,laohong?Jane忘了“欲速则不达”,Jane的天空要下雨…
Hi_Jane820712
2007-01-12, 08:33 AM
如果中英文本段落差异较大的话,如《红楼梦》中英文本,要做到段落对齐,通常情况会在中英TXT文件之间来回切换,费时费力、效率低。
真需要一个简单工具:至少可以同时显示两种文本,并允许手工编辑(可惜不懂编程,书到用时方恨少)。请laohong指教。
laohong
2007-01-12, 04:18 PM
最好不要用Micorsoft Word。EditPlus 里本来就有Spell Check的,打开文件后,敲Tools, Preferences ,Tools ,Spell checker,把US 和UK English 都勾选。如果不让选,说明你还没有装字典,到EditPlus的网站去下载安装。
关于同时打开两个文本对照处理的问题,其实很简单,用EditPlus同时打开两个文件,如Jane_C001.txt和Jane_E001.txt,然后敲菜单里的Window,Arrange,Tile Horizontally,就行了。如果嫌这样麻烦,也可以使用MLEditor (Multi-Language Editor) ,下载和用法说明可从如下地址获得:
http://www.speedy7.com/mleditor/english/index.html
xujiajin
2007-01-12, 06:20 PM
《红楼梦》有些译本可以出版,有些受版权保护,恐不能出版。
Hi_Jane820712
2007-01-14, 07:42 PM
EditPlus 里本来就有Spell Check的...
关于同时打开两个文本对照处理的问题...用EditPlus...也可以使用MLEditor
谨遵师命!EditPlus显示段落顺序号,就这一点来说优于MLEditor,故仍用EditPlus审核段落对齐,并进行文字校对。MLEditor软件也已下载并保存。谢吾师!
至此,已除净千里大堤所有蚁穴。洒扫房屋、备好香茗,只等吾师明日开讲“如何做好双语平行语料库句子层面对齐”。:)
Hi_Jane820712
2007-01-14, 07:44 PM
《红楼梦》有些译本可以出版,有些受版权保护,恐不能出版。
《红楼梦》九种译本,若论代表性及可比性,有杨译、霍译足矣!关于语料库语料收集,吾师有言:“不必贪大贪全,有代表性就行。”吾师又将之与婚姻有一比。
吾师更说过:“顶是一种美德”!:)
Hi_Jane820712
2007-01-14, 07:46 PM
吾师在上:我们把小楼初始题目改为“[求教]如何构建双语平行语料库”(不要引号),可好?改不了也没关系,大不了您少收点肉干,弟子我少蹭您点肉干吃。干肉无异于肉干,是不?如有异,强烈建议吾师改收肉干做学费,肉干更美味!譬如牛肉干,那个香呵…:)
xujiajin
2007-01-17, 10:02 PM
赞一个,笑一个。
xudekuan
2007-01-19, 08:45 PM
thanks a lot, laohong.
xujiajin
2007-01-19, 10:03 PM
前面说过了,好几个版本都有版权问题。所以应该不能出版光盘。
Hi_Jane820712
2007-01-20, 10:41 AM
工作尴尬定律:能干的不如光看的,光看的不如能说的,能说的不如捣蛋的。对此不服不行!
说些题外话。太憋闷了,打开窗户透透气儿!
Hi_Jane820712
2007-01-20, 10:43 AM
thanks a lot, laohong.
一起感谢恩师laohong!:)
先依照laohong所教标段首段尾的方法,仍用EditPlus断句、做句首句尾标注。
还有,别忘了用肖教授介绍的Trados WinAlign核查句子是否对齐。:)
laohong
2007-01-20, 10:35 PM
最近网站不好登录,手头也赶几个东西,得罪了。可以先研究一下Xiao推荐的WinAlign。
Hi_Jane820712
2007-01-23, 12:45 AM
Laohong您好!找Trados花了些时间,让您久等了!
一旦找到Trados,心里满满的全是幸福:)?
WinAlign里可以进行句子对齐的文件格式,没有TXT。便把TXT文本的内容,全拷到WORD文档里,这样进行起来就很顺利了。
在用WinAlign之前,我把已加段首段尾标注的语料,又用EditPlus做了些替换整理,为的是紧凑美观,如:
整理前(<P>后及</P>前都有空格,但是帖子一发出来就不显示空格了):
<P> 'Is John getting the carriage ready?' </P>
<P> 'Yes, sir.' </P>
<P> 'Is the luggage brought down?' </P>
<P> 'They are bringing it down, sir.' </P>
整理后(<P>后及</P>前没有空格):
<P>'Is John getting the carriage ready?'</P>
<P>'Yes, sir.'</P>
<P>'Is the luggage brought down?'</P>
<P>'They are bringing it down, sir.'</P>
只是不知如此整理出的文本是否符合规范?
按照WinAlign的《用户指南》,先用《简爱》第二十六章的内容作试验文本,一步步终于对齐了句子(如图所示,请以图的“实际大小”看图,那样没有水洇的感觉,眼睛很舒服的)。
做完后,就需要保存文本了,但是保存文本里中英文全混在一起了,PARACONC不检索这种文本呀,怎么办呢Laohong?
我好象迷路了。
Hi_Jane820712
2007-01-23, 12:55 AM
Laohong,我要发的图是BMP格式的,为的是您看着舒服,可网络不让传这种格式的图片,只好先发到您信箱里了。请查收,谢谢您!:)
还有,别忘了以图的“实际大小”看图,很清晰的。:)
xiaoz
2007-01-23, 04:06 AM
The bi-text resulting from Winalign should look like the sample given below. At this point, a little bit of programming will separate the English and Chinese texts and save them into separate files for use with ParaConc, using the algorithm below:
if the line contains "<Seg L=EN-GB>"
then remove the first 13 characters and write the rest of the line into the English filename;
if the line contains "<Seg L=ZH-CN>"
then remove the first 13 characters and write the rest of the line into the Chinese filename;
---SAMPLE BEGIN---
<TrU>
<Quality>68
<CrU>XIAOZ
<CrD>29102006, 23:40
<Seg L=EN-GB>The Future of placeAfrica
<Seg L=ZH-CN>非洲的未来
</TrU>
<TrU>
<Quality>80
<CrU>XIAOZ
<CrD>29102006, 23:40
<Seg L=EN-GB>We are in a period of decisive historical significance for placeAfrica and its place in the world.
<Seg L=ZH-CN>我们非洲及其在世界的地位正处在决定性并具历史意义的时期。
</TrU>
<TrU>
<Quality>78
<CrU>XIAOZ
<CrD>29102006, 23:40
<Seg L=EN-GB>We are determined that this 2lst century shall be the African century.
<Seg L=ZH-CN>我们决心要使21世纪成为非洲的世纪。
</TrU>
<TrU>
<Quality>77
<CrU>XIAOZ
<CrD>29102006, 23:40
<Seg L=EN-GB>The idea of an African renaissance has taken hold in our continent with all the resonance of an idea whose time has come.
<Seg L=ZH-CN>非洲复兴的理想已在我们大陆扎下根,这理想实现的时刻已经到来,这想法引起大家的共鸣。
</TrU>
---SAMPLE END---
Hi_Jane820712
2007-01-24, 08:00 AM
if the line contains "<Seg L=EN-GB>"
then remove the first 13 characters and write the rest of the line into the English filename;
if the line contains "<Seg L=ZH-CN>"
then remove the first 13 characters and write the rest of the line into the Chinese filename;
谢谢您肖教授!我不会编程,只能按照您教的办法,把原件中没有对齐的个别句子,一句一句手工改过来了。
您能教我如何编程自动完成此过程吗?谢谢您!
xiaoz
2007-01-24, 08:27 AM
Please paste a sample paragraph from your aligned text.
Hi_Jane820712
2007-01-24, 09:49 AM
英文本Jane_E26
<P><S>CHAPTER XXVI</S></P>
<P><S>SOPHIE came at seven to dress me: </S>
<S>she was very long indeed in accomplishing her task; so long that Mr. Rochester, grown, I suppose, impatient of my delay, sent up to ask why I did not come. </S>
<S>She was just fastening my veil (the plain square of blond after all) to my hair with a brooch; I hurried from under her hands as soon as I could.</S></P>
<P><S>'Stop!' she cried in French. </S>
<S>'Look at yourself in the mirror: you have not taken one peep.'</S></P>
<P><S>So I turned at the door: </S>
<S>I saw a robed and veiled figure, so unlike my usual self that it seemed almost the image of a stranger. </S>
<S>'Jane!' called a voice, and I hastened down. </S>
<S>I was received at the foot of the stairs by Mr. Rochester.</S></P>
<P><S>'Lingerer!' he said, 'my brain is on fire with impatience, and you tarry so long!'</S></P>
<P><S>He took me into the dining-room, surveyed me keenly all over, pronounced me 'fair as a lily, and not only the pride of his life, but the desire of his eyes,' and then telling me he would give me but ten minutes to eat some breakfast, he rang the bell. </S>
<S>One of his lately hired servants, a footman, answered it.</S></P>
<P><S>'Is John getting the carriage ready?'</S></P>
<P><S>'Yes, sir.'</S></P>
<P><S>'Is the luggage brought down?'</S></P>
<P><S>'They are bringing it down, sir.'</S></P>
<P><S>'Go you to the church: </S>
<S>see if Mr. Wood (the clergyman) and the clerk are there: </S>
<S>return and tell me.'</S></P>
<P><S>The church, as the reader knows, was but just beyond the gates; the footman soon returned.</S></P>
<P><S>'Mr. Wood is in the vestry, sir, putting on his surplice.'</S></P>
<P><S>'And the carriage?'</S></P>
<P><S>'The horses are harnessing.'</S></P>
<P><S>'We shall not want it to go to church; but it must be ready the moment we return: </S>
<S>all the boxes and luggage arranged and strapped on, and the coachman in his seat.'</S></P>
<P><S>'Yes, sir.'</S></P>
<P><S>'Jane, are you ready?'</S></P>
<P><S>I rose. </S>
<S>There were no groomsmen, no bridesmaids, no relatives to wait for or marshal: </S>
<S>none but Mr. Rochester and I. </S>
<S>Mrs. Fairfax stood in the hall as we passed. </S>
<S>I would fain have spoken to her, but my hand was held by a grasp of iron: </S>
<S>I was hurried along by a stride I could hardly follow; and to look at Mr. Rochester's face was to feel that not a second of delay would be tolerated for any purpose. </S>
<S>I wonder what other bridegroom ever looked as he did- so bent up to a purpose, so grimly resolute: </S>
<S>or who, under such steadfast brows, ever revealed such flaming and flashing eyes.</S></P>
中文本Jane_C26
<P><S>第二十六章</S></P>
<P><S>索菲娅七点钟来替我打扮,确实费了好久才大功告成。</S>
<S>那么久,我想罗切斯特先生对我的拖延有些不耐烦了,派人来问,我为什么还没有到。</S>
<S>索菲娅正用一枚饰针把面纱(毕竟只是一块淡色的普通方巾)系到我头发上,一待完毕,我便急急忙忙从她手下钻了出去。 </S></P>
<P><S>“慢着!”她用法语叫道。</S>
<S>“往镜子里瞧一瞧你自己,你连一眼都还没看呢。” </S></P>
<P><S>于是我在门边转过身来,</S>
<S>看到了一个穿了袍子,戴了面纱的人,一点都不像我往常的样子,就仿佛是一位陌生人的影像。</S>
<S>“简!”一个声音嚷道,我赶紧走下楼去。</S>
<S>罗切斯特先生在楼梯脚下迎着我。 </S></P>
<P><S>“磨磨蹭蹭的家伙,”他说,“我的脑袋急得直冒火星、你太拖拉了!” </S></P>
<P><S>他带我进了餐室,急切地把我从头到脚打量了一遍,声称我“像百合花那么美丽,不仅是他生活中的骄傲,而且也让他大饱眼福。”随后他告诉我只给我十分钟吃早饭,并按了按铃。</S>
<S>他新近雇用的一个仆人,一位管家应召而来。 </S></P>
<P><S>“约翰把马车准备好了吗?”</S></P>
<P><S>“好了,先生。”</S></P>
<P><S>“行李拿下去了吗?”</S></P>
<P><S>“他们现在正往下拿呢,先生。”</S></P>
<P><S>“上教堂去一下,</S>
<S>看看沃德先生(牧师)和执事在不在那里。</S>
<S>回来告诉我。”</S></P>
<P><S>读者知道,大门那边就是教堂,所以管家很快就回来了。</S></P>
<P><S>“沃德先生在法衣室里,先生,正忙着穿法衣呢。”</S></P>
<P><S>“马车呢?”</S></P>
<P><S>“马匹正在上挽具。”</S></P>
<P><S>“我们上教堂不用马车,但回来时得准备停当。</S>
<S>所有的箱子和行李都要装好捆好,车夫要在自己位置上坐好。”</S></P>
<P><S>“是,先生。”</S></P>
<P><S>“简,你准备好了吗?”</S></P>
<P><S>我站了起来,</S>
<S>没有男傧相和女傧相,也没有亲戚等候或引领。</S>
<S>除了罗切斯特先生和我,没有别人。</S>
<S>我们经过大厅时,费尔法克斯太太站在那里。</S>
<S>我本想同她说话,但我的手被铁钳似地捏住了,</S>
<S>让我几乎跟不住的脚步把我匆匆推向前去。一看罗切斯特先生的脸我就觉得,不管什么原因,再拖一秒钟他都不能忍耐了。</S>
<S>我不知道其他新郎看上去是不是像他这付样子——那么专注于一个目的,那么毅然决然;</S>
<S>或者有谁在那对稳重的眉毛下,露出过那么火辣辣,光闪闪的眼睛。</S></P>
上述 句子对应 皆在恩师laohong的指导下完成,谢谢laohong!:)
谢谢您,肖教授!:)
xiaoz
2007-01-24, 06:32 PM
No I want to see a sample from your Winalign.
xiaoz
2007-01-24, 07:24 PM
OK. I have made a Winalign-ed copy with your data. Is the folloowing what you want?
After de-alignment: English text file:
<P><S>CHAPTER XXVI</S></P>
<P><S>SOPHIE came at seven to dress me:
</S>
<S>she was very long indeed in accomplishing her task; so long that Mr. Rochester, grown, I suppose, impatient of my delay, sent up to ask why I did not come.
</S>
<S>She was just fastening my veil (the plain square of blond after all) to my hair with a brooch; I hurried from under her hands as soon as I could.</S></P>
<P><S>'Stop!' she cried in French.
</S>
<S>'Look at yourself in the mirror:
you have not taken one peep.'</S></P>
<S>I saw a robed and veiled figure, so unlike my usual self that it seemed almost the image of a stranger.
</S>
<S>'Jane!' called a voice, and I hastened down.
</S>
<S>I was received at the foot of the stairs by Mr. Rochester.</S></P>
<P><S>'Lingerer!' he said, 'my brain is on fire with impatience, and you tarry so long!'</S></P>
After de-alignment: Chinese text file:
<P><S>第二十六章</S></P>
<P><S>索菲娅七点钟来替我打扮,确实费了好久才大功告成。
</S>
<S>那么久,我想罗切斯特先生对我的拖延有些不耐烦了,派人来问,我为什么还没有到。
</S>
<S>索菲娅正用一枚饰针把面纱(毕竟只是一块淡色的普通方巾)系到我头发上,一待完毕,我便急急忙忙从她手下钻了出去。 </S></P>
<P><S>“慢着!”她用法语叫道。
</S>
<S>“往镜子里瞧一瞧你自己,你连一眼都还没看呢。
” </S></P>
<S>看到了一个穿了袍子,戴了面纱的人,一点都不像我往常的样子,就仿佛是一位陌生人的影像。
</S>
<S>“简!”一个声音嚷道,我赶紧走下楼去。
</S>
<S>罗切斯特先生在楼梯脚下迎着我。 </S></P>
<P><S>“磨磨蹭蹭的家伙,”他说,“我的脑袋急得直冒火星、你太拖拉了!” </S></P>
xiaoz
2007-01-24, 07:33 PM
The program for de-alignment is attached below. To use the program, do the following:
1. Make a new folder on your machine;
2. Download and unzip the program file named dealigner.pl into that foler;
3. Copy the file of translation units exported from Trados Winalign;
4. Go to http://www.activestate.com/store/productdetail.aspx?prdGuid=81fbce82-6bd5-49bc-a915-08d58c2648ca and download the FREE Perl and install it on your machine (and then forget it);
5. Double click my program file.
You will receive a prair of files starting with E_ and C_ plus your original bitext filenames for the English and Chinese sentences.
xiaoz
2007-01-24, 07:45 PM
I would advise not to include sentence tags in texts to be aligned as they are a burden for Winalign. These can be added readily after alignment.
also the Chinese texts need to be tokenised before they can be used with ParaConc.
Hi_Jane820712
2007-01-25, 08:41 AM
I would advise not to include sentence tags in texts to be aligned as they are a burden for Winalign. These can be added readily after alignment.
also the Chinese texts need to be tokenised before they can be used with ParaConc.
知道了,记住了,肖教授:)
Hi_Jane820712
2007-01-25, 08:41 AM
谢谢您,肖教授!
所有工作只轻轻一点鼠标便完成!爽呵!
分解出来的英文本很干净。
中文本里出现了{\f4 }这样的标记,如:
<P>{\f4 “马车呢?”}</P>
<P>{\f4 “马匹正在上挽具。} {\f4 ”}</P>
我用“替换”为空,把它们全换掉了。
能编程真好呵!看来,C语言这块硬骨头我也得啃啃了:)
xiaoz
2007-01-25, 09:33 AM
I do not recommend compiler languages like C/C++ for corpus linguists. I recommend script languages such as Perl. it is much easy to learn and understand for "arts" students in China (where there is a clear cut line between arts and sciences). Also Perl is the most powerful programming language for text processing - Haiyang has noted that 90% of Perl deals with text.
There are a couple of Perl tutorials and books at this sites. Just seach.
Hi_Jane820712
2007-01-25, 09:38 AM
There are a couple of Perl tutorials and books at this sites. Just seach.
明白,肖教授! :)谢谢您!
找到几本,是laohong和haiyang推荐的:
http://www.corpus4u.org/showthread.php?t=1168&highlight=Perl
再次感谢!
Hi_Jane820712
2007-01-29, 10:29 AM
在网上找到SP (SGML parser):
http://www.jclark.com/sp/index.htm
可在页面的链接中下载SP:
How to get SP
我下载了,但是不明白如何对TXT文本文件进行SGML标注。
请指教,谢谢!
see_how_much_I_love_you
2007-02-03, 01:41 PM
用了整整三天的时间趴墙头看这个帖子,边看边对照着做,成功啦!
谢谢楼主、Dr.Hong 和Dr.Xiao。
hittle2008
2008-03-29, 06:10 PM
:confused:after alignment of bi-texts in the Paraconc, we can immediately begin the search step to see the parallel text. But it seems that only the query word can be shown in highligted color while its translation remains unmarked in the TT. How can I possibly have it highlighted with the query word ? Does it mean I have to align the bi-texts at a word level, if so, how?
vBulletin® v3.7.4,版权所有 ©2000-2009,Jelsoft Enterprises Ltd.