PDA

查看完整版本 : 红楼梦汉英翻译平行语料库检索平台供测试


laohong
2007-07-10, 12:45 AM
Hongloumeng Parallel Corpus Prototype Query Package
红楼梦汉英翻译平行语料库检索平台


忙了几天,终于把这个检索平台搞出来了,希望大家测试后多提宝贵意见!意见可以留在这里,也可以发到我gmail的邮件里:@前是corpus.laohong,@后是gmail.com。

几点说明

1、测试数据:
这里供测试的数据包括曹雪芹原文的第一、二、三、四、五、六、八、九、十、十一、十二和十三这12个章节;以及上述12个章节的霍克斯的英语译文和上述12个章节的杨氏夫妇的英语译文。目前的测试数据还没有乔利(Joly)和帮赛尔(Bonsell)的。

2、检索方法:
可以分别检索汉语或者英语,也可以同时检索两种语言。作者也可以单独选择霍克斯或者杨氏,或者全选。检索词语或短语时,可以使用通配符,如?(英文问号)或*等。例如,好?可以检索到好人、好处等;the*可以检索到they,there等。

3、检索选项:
可以用鼠标选择要检索的章节、句子特征等信息。按住ctrl键同时用鼠标点选,可以同时选择多个选项。重新选择,请使用Reset按钮。

4、句子语言特征:
由于标注的语料未经整理,句子的语言特征只供参考。注意,如果同时选择某些英汉句子特征去检索的话,搜寻结果可能为零。


[B]这里是测试链接 (http://score.crpp.nie.edu.sg/hlm/index.htm)。

Haiyang
2007-07-10, 09:07 AM
能公开检索的汉英平行语料库很少。Laohong 这里又先行一步了。
一个建议:检索结果中,点击检索词,能否链接回到原文?

armstrong
2007-07-10, 09:31 AM
Laohong is always great!
congratulations!

Hi_Jane
2007-07-10, 10:05 AM
恭喜恭喜! :)
好简洁的检索界面,我喜欢!

为了让她更完美,鸡蛋里挑个小骨头呵:

检索:笑道。结果如下:
那僧笑道:「
二仙笑道:「
士隱聽了,不便再問,因笑道:「
當下雨村見了士隱,忙施禮陪笑道:「
恰值士隱走來聽見,笑道:「
雨村聽了,並不推辭,便笑道:「
......

师父可不可以把冒号后面的“「”放在下一句呢,那样更规范些。

师父辛苦了。:)

清风出袖
2007-07-10, 11:54 AM
thanks laohong!

zlgtony
2007-07-10, 12:41 PM
Great work! Congratulation! Laohong.

laohong
2007-07-10, 04:54 PM
能公开检索的汉英平行语料库很少。Laohong 这里又先行一步了。
一个建议:检索结果中,点击检索词,能否链接回到原文?

谢谢海洋。目前还没有这个打算,因为链接回到原文会把整个章节调出来,消耗资源过大,也不符合设计初衷:检索英汉句对。

laohong
2007-07-10, 04:59 PM
...可不可以把冒号后面的“「”放在下一句呢,那样更规范些。 ...:)

谢谢!这是句子标注时留下的问题,还有一些其它问题,如英文中显示的$$符号,句子属性、类别的界定等,都是在标注时发生的。这些都需要时间来对标注的语料进行清理。

laohong
2007-07-10, 05:05 PM
不知道大家对检索速度、界面、以及通用性等方面有什么建议和意见?
通用性指的是如果你自己有同类语料,这样的搜索引擎是否能达到想要的研究目的?或者你还有其它的要求?

mayerniu
2007-07-10, 10:23 PM
检索速度很快,检索界面也很简洁。谢谢laohong!
BTW,曹雪芹的红楼梦原文可不可以增加一个简化字体版本的?

laohong
2007-07-10, 11:58 PM
检索速度很快,检索界面也很简洁。谢谢laohong!
BTW,曹雪芹的红楼梦原文可不可以增加一个简化字体版本的?

简单就是福啊!

字体选择时主要考虑到红楼梦本来就有很多字在简化字中就没有,即使有也不是原著中的本意,所以最终字体选择的是UTF-8,这样检索结果不管是在英文系统、简体中文或者繁体中文系统里都能正确显示。

另外,这样做还有一个好处,那就是用户在输入检索中文字词时,不管是简体还是繁体,都可以得到结果。例如检索“风尘”或者“風塵”,结果都是同样的4个。

Hi_Jane
2007-07-11, 08:59 AM
界面改观不小呵,有了Help,显示结果页面也有了New Query,所显示的英文字体也清秀些了,不是那么胀鼓鼓的了。赞一下呵,师父。:)

能不能在显示结果页面,直接拉一新检索文本“框”,简单检索就不必再返回首界面了;后附“高级检索”,可链接到首界面。:)

还有,师父既然有很充分的理由用繁体字显示中文本,那把中文字体搞大好不好。现有的中文字体过小,且都用了加粗,都挤到一起了,累眼睛呵。:)

cindy-ken324
2007-07-11, 03:51 PM
好东西!检索了一个词,发现在句子对齐的时候,也就是分句的时候,中文句子过长,所以在检索的时候会出现一段文字,而你所需要的那个找起来却很费劲!但是对于文学研究来讲的确是好事!还有,中科院的那个在线检索的软件在这方面就稍微好一些,可能在分句的时候尽量简短了,且分号也作为一句!但是缺点就是检索的英文句子中有很多有语法错误,比较郁闷了!呵呵!感谢LAOHONG!!!

noel
2007-07-11, 06:47 PM
多谢laohong 速度好快呢 只是中文字小了些 另外 每页显示数目不可以自己设定么

laohong
2007-07-12, 12:48 AM
能不能在显示结果页面,直接拉一新检索文本“框”,简单检索就不必再返回首界面了;后附“高级检索”,可链接到首界面。:)

还有,师父既然有很充分的理由用繁体字显示中文本,那把中文字体搞大好不好。现有的中文字体过小,且都用了加粗,都挤到一起了,累眼睛呵。:)


好,回头有时间就改。

laohong
2007-07-12, 01:18 AM
好东西!检索了一个词,发现在句子对齐的时候,也就是分句的时候,中文句子过长,所以在检索的时候会出现一段文字,而你所需要的那个找起来却很费劲!但是对于文学研究来讲的确是好事!还有,中科院的那个在线检索的软件在这方面就稍微好一些,可能在分句的时候尽量简短了,且分号也作为一句!但是缺点就是检索的英文句子中有很多有语法错误,比较郁闷了!呵呵!感谢LAOHONG!!!

这里的中英文的句子都是人工标注的,是基于语法规则来做判定的(其中错误当然难免),句子并不是根据字数的多少或标点来自动分切的。如“伟大的、光荣的、正确的中国共产党在国际正义势力的支持下,在以毛泽东、周恩来、朱德等为核心的老一辈无产阶级革命家的卓越领导下,历尽磨难终于在艰苦卓绝的八年抗战和随后的四年国共内战后胜利地推翻了长期以来压在四万万五千万中国人民身上的三座大山。”这个句子够长吧?其实也就是个简单的主谓句:共产党推翻了大山。

另外,这里的检索结果是按set显示的,即一句翻成一句,一句翻成多句,或多句翻成一句都是按一个set来显示的。因此,这样就十分优于现行的其它平行语料库。比如,我们可以迅速提取出所有一翻多的句子来进一步分析什么样的句子为什么这些句子需要翻译成多个句子,我们也可以迅速统计出多个句子被合并翻译成一个句子的情况如何, 等等。这一点,用户是无法从中科院的、厦门大学的或者句库等平行语料库中得到的。

通常被检索的关键词都会在结果中用背景颜色高亮显示,不明白为什么你觉得不太容易找到检索词。

laohong
2007-07-12, 01:26 AM
多谢laohong 速度好快呢 只是中文字小了些 另外 每页显示数目不可以自己设定么

字体回头就要修改,不过每页显示多少是不能让用户自己设定的。

laohong
2007-07-13, 10:08 PM
根据大家的建议,有了一些修改,请大家再指正!

laohong
2007-07-27, 10:58 PM
For Xiaoz, 这可奇了的三种翻译:

C005 寶玉 一把 拉住 說道 :「 這 可 奇 了 , 好好 的 怎麼 怕 起 她 來 ?」 林 黛 玉 急得 跺腳 , 悄悄 的 說道 :「 你瞧 瞧 我的 眼睛 , 又 該 她 拿著 取笑 開心 了 。」 寶玉 聽說 , 趕忙 的 放了 手 。 黛 玉 三步 兩步 轉過 床 後 , 剛 出了 後 院 , 鳳 姐 從前 頭 已 進來 了 , 問 寶玉 :「 可好 些 了 ? 想 什麼 吃 ? 叫人 往 我 那 裏 取去 。」 接著 , 薛 姨媽 又來 了 。 一時 賈 母 又打 發 了 人 來 。

Y005 Baoyu caught her hand protesting , " That 's a strange thing to do . Why should you be afraid of her ? " Daiyu stamped one foot in desperation . " Look at my eyes , " she whispered . " She'd make fun of me if she saw . " At once he released her and she slipped past his bed and out through the back court just as Xifeng came in from the front . " Are you better ? " she asked Baoyu . " If you fancy anything to eat , send someone to my place for it . " Aunt Xue called next . And then the Lady Dowager sent maids to inquire after the invalid .


H005 Bao - yu seized hold of her hand . ' Now that 's funny . Why should you start being afraid of her all of a sudden ? ' She stamped with impatience . ' Look at the state my eyes are in ! ' she said . ' I do n't want them all making fun of me again . ' At that Bao - yu released her hand and she bounded round to the back of the bed , slipping into the rear courtyard just as Xi - feng was entering the room from the front . ' A bit better now ? ' said Xi - feng . ' Is there anything you feel like eating yet ? If there is , tell them to come round to my place and get it . ' As soon as Xi - feng had gone , Bao - yu was visited by Aunt Xue , and shortly after that by someone whom his grandmother had sent to see how he was getting on .


J005 " This is indeed strange ! " exclaimed Pao - yü as he laid hold of her and tried to detain her . "How is it that you've deliberately started living in fear and trembling of her ! " Lin Tai - yü grew impatient and stamped her feet . " Look at my eyes ! " she added in an undertone . " Must those people amuse themselves again by poking fun at me ? " After this response , Pao - yü speedily let her go . Lin Tai - yü with hurried step withdrew behind the bed ; and no sooner had she issued into the back - court , than lady Feng made her appearance in the room by the front entrance . " Are you better ? " she asked Pao - yü . " If you fancy anything to eat , mind you send some one over to my place to fetch it for you . " Thereupon Mrs . Hsüeh also came to pay him a visit . Shortly after , a messenger likewise arrived from old lady Chia (to inquire after him) .

mayerniu
2007-07-28, 11:14 PM
Much better than before.

清风出袖
2007-07-29, 11:17 AM
请教一下老洪博士,古文的分词在这个工程中是怎么解决的?你们编了相应的分词软件么?还是手工分词?盼复!谢谢。

laohong
2007-07-29, 12:04 PM
中文分词使用了自己开发的一个综合分词器,主要是在台湾中央研究院词库小组(CKIP)的中文自动断词系统AutoTag和北京中科院ICTCLAS分词系统的结果上统计分析后取弥合最好的。当然,错误还是难免的,好在词语并不是本项目的研究重点,这里我们更关注句子及语篇层面的特征。一旦做到了句子层面的对齐,词语、语篇、翻译技巧等就可以进一步的分析和精加工了。希望有兴趣的朋友能加入。

清风出袖
2007-07-29, 10:09 PM
谢谢了老洪博士!

为典籍而奋斗
2007-08-14, 07:30 PM
您好:
"红楼梦汉英翻译平行语料库检索平台供测试"在哪里可以找到?
在网上可以应用吗?
谢谢!

oscar3
2007-08-15, 12:12 AM
您好:
"红楼梦汉英翻译平行语料库检索平台供测试"在哪里可以找到?
在网上可以应用吗?
谢谢!

laohong's 红楼梦 (http://score.crpp.nie.edu.sg/hlm/index.htm)

ascetlan
2008-03-28, 12:59 PM
应该是国内第一个名著平行语料检索!语料研究开路先锋!版主辛苦了!

ZhenWang
2008-07-03, 11:15 PM
恭喜LaoHong,恭喜,但是我只是能用了,却看不懂事怎么做到的,能不能说说制作方法?谢谢!

laohong
2008-07-03, 11:42 PM
恭喜LaoHong,恭喜,但是我只是能用了,却看不懂事怎么做到的,能不能说说制作方法?谢谢!

对大多数用户来说,能用就行,毕竟搞明白制作过程也是需要一些时间的。当然,如果对技术本身感兴趣,或是想处理自己的语料,花点时间研究一下也是值得的。

ZhenWang
2008-07-04, 11:52 AM
谢谢老洪博士的回复,其实我就是对技术比较感兴趣,能不能在这方面给点建议?谢谢

cherry117
2008-11-01, 04:36 PM
对于一个入门汉来说,真是发现了一个宝藏,在此唯有谢谢:)希望还能看到更多更好的东东!

laohong
2008-11-02, 09:52 AM
测试版在这里发布也大约有一年半了,细心的朋友也许已经发现,改进版悄然运行一段日子了(有些方面还得抽空更新),目前主要改动有这样两点:
1、数据大小:以前的版本只放了6个章节做演示,现在的数据是全部120回汉语本 + 霍克思的120回英译本 + 杨宪益夫妇的120回英译本。
2、用户限制:所有用户需要登录才能使用,不过普通用户直接点击guest即可登录,但是只能查看检索结果的前两页。注册用户则可以不受此限制。

xudekuan
2008-11-02, 10:52 AM
测试版在这里发布也大约有一年半了,细心的朋友也许已经发现,改进版悄然运行一段日子了(有些方面还得抽空更新),目前主要改动有这样两点:
1、数据大小:以前的版本只放了6个章节做演示,现在的数据是全部120回汉语本 + 霍克思的120回英译本 + 杨宪益夫妇的120回英译本。
2、用户限制:所有用户需要登录才能使用,不过普通用户直接点击guest即可登录,但是只能查看检索结果的前两页。注册用户则可以不受此限制。

请问,注册收费么?还是免费?

wxsong
2008-11-02, 01:27 PM
laohong的语料库做的太漂亮了,谢谢分享!刚注册了个wxsong,正等审核。和各位C友一样,希望能得到点技术上的指导!

laohong
2008-11-03, 04:24 PM
请问,注册收费么?还是免费?

注册不收费,但不是每个申请者都会得到full access,因为这取决于申请者提供的研究说明。简单的写成:for research, for study, corpus lover等等,很遗憾地说,那就没必要注册了,建议使用Guest帐户就可以了。希望大家能理解这样做的苦衷。

huangjianking
2008-11-30, 05:58 PM
很感兴趣如何输入一种文字的搜索词会自动调出双语的语境来?就是说输入I, 搜索后“我”和"I"各自的例句同时对齐调出??——正在研究我学生口译,所以很急需。可点拨否??

laohong
2008-12-01, 01:36 PM
很感兴趣如何输入一种文字的搜索词会自动调出双语的语境来?就是说输入I, 搜索后“我”和"I"各自的例句同时对齐调出??——正在研究我学生口译,所以很急需。可点拨否??

在laohong的 红楼梦 (http://score.crpp.nie.edu.sg/hlm/index.htm) 检索页面里,左边填我,同时右边填I, 敲Search就会得到你要的结果。

julia2006
2008-12-02, 04:54 PM
太喜欢了