PDA

查看完整版本 : 北外双语平行语料库最新消息


xujiajin
2005-10-21, 02:51 PM
今天上午从王克非老师处得知:
北外双语平行语料库已经完全ready了,书和光盘的出版也是迟早的事。
之所以至今没有出版原因是项目结题所必需履行的审批手续还没有办完。所以大家再等等吧。

对了,王老师说,最后公开的语料不是整个语料库,但至少也在1000万以上吧。

刘语料
2005-10-21, 03:38 PM
请问光盘中是否含有供索引的软件?
谢谢家金。

xujiajin
2005-10-21, 09:28 PM
这个具体我没来得及问王老师,不过按照另一个帖子中提到的文章中的说法,好像是有吧。

刘语料
2005-10-22, 12:35 AM
麻烦家金再找王老师确定一下光盘中是否含有索引软件。

xujiajin
2005-10-22, 07:04 AM
好的,不过不太容易见到他的,有机会我会再问他的。

动态语法
2005-10-22, 07:12 AM
以下是引用 xujiajin 在 2005-10-21 14:51:57 的发言:
今天上午从王克非老师处得知:
北外双语平行语料库已经完全ready了,书和光盘的出版也是迟早的事。
之所以至今没有出版原因是项目结题所必需履行的审批手续还没有办完。所以大家再等等吧。

对了,王老师说,最后公开的语料不是整个语料库,但至少也在1000万以上吧。


里边大概包含了什么样的语料?

oscar3
2005-10-22, 08:42 AM
以下是引用 动态语法 在 2005-10-22 7:12:22 的发言:
以下是引用 xujiajin 在 2005-10-21 14:51:57 的发言:
今天上午从王克非老师处得知:
北外双语平行语料库已经完全ready了,书和光盘的出版也是迟早的事。
之所以至今没有出版原因是项目结题所必需履行的审批手续还没有办完。所以大家再等等吧。

对了,王老师说,最后公开的语料不是整个语料库,但至少也在1000万以上吧。


里边大概包含了什么样的语料?


会由如下子库组成:http://forum.corpus4u.org/upload/forum/2005102208403867.gif
这是一个“通用语料库”,收集的语料均为全文。


[本贴已被 作者 于 2005年10月22日 08时43分51秒 编辑过]

xiaoz
2005-10-22, 09:14 AM
王老师在他主编的《双语对应语料库研制与应用》一书中第五节对该库有系统介绍哦。
http://www.corpus4u.org/showthread.php?t=660

tiger
2005-10-22, 12:08 PM
good news

majorlv511
2005-10-24, 07:52 PM
这个双语平行语料库的题材是哪方面的啊?文学的?还是其他什么方面的?
现在听说过的双语语料库大都是关于某部作品的翻译版之间的比较哈

xiaoz
2005-10-24, 08:03 PM
Both literary and non-literary works, from English into Chinese and from Chinese into English.

oscar3
2005-10-24, 08:06 PM
以下是引用 majorlv511 在 2005-10-24 19:52:02 的发言:
这个双语平行语料库的题材是哪方面的啊?文学的?还是其他什么方面的?
现在听说过的双语语料库大都是关于某部作品的翻译版之间的比较哈


既有文学又有非文学百科方面的语料,但是,文学方面的文本占的比重大一些。因为其语料选择注意了语域之间的平衡性原则,因而属于通用语料库,而不仅仅是某部或者几部文学作品之间的比较。该语料库由英->汉,汉->英原创文本和对应的翻译文本构成。

majorlv511
2005-10-25, 09:56 AM
找到一篇王克非老师的题为<英汉/汉英语句对应的语料库考察>的文章,不知道是不是关于这个语料库的.

xiaoz
2005-10-25, 10:35 AM
通用汉英对应语料库(约3000万汉字/英文词),包括四个子库:

翻译文本库(2000万,文学60%(英汉60%,汉英40%),非文学40%(英汉55%,汉英45%))
百科语料库(1000万,均衡抽样,文学30%,人文25%,社科30%,科技15%)
专科语料库(从文理各挑1-2科做样例,暂缺)
对译语句库(600万,取自各种翻译教材,翻译练习,对译读物,双语工具书等)

patricx
2005-10-25, 11:10 AM
盼望早日见架啊!!!

xujiajin
2005-10-25, 03:48 PM
以下是引用 majorlv511 在 2005-10-25 9:56:16 的发言:
找到一篇王克非老师的题为<英汉/汉英语句对应的语料库考察>的文章,不知道是不是关于这个语料库的.


就是关于这个语料库的,100% sure.

armstrong
2005-11-15, 07:01 PM
光盘中是否含有索引软件?

yuliaoku
2006-03-14, 11:53 AM
请问这个语料库是在什么层次上对齐的?正确率大约是多少?

laohong
2006-03-14, 12:14 PM
以下是引用 yuliaoku 在 2006-3-14 11:53:38 的发言:
请问这个语料库是在什么层次上对齐的?正确率大约是多少?

也问一句:“在什么层次上对齐的?正确率大约是多少?” 如何对齐的?目前有成熟的对齐工具吗?如果没有,请问人工对齐是如何做到的?

patricx
2006-03-14, 12:40 PM
王老师在他主编的《双语对应语料库研制与应用》有详细说明的,而且有例证。

oscar3
2006-03-15, 04:52 PM
以下是引用 laohong 在 2006-3-14 12:14:38 的发言:
以下是引用 yuliaoku 在 2006-3-14 11:53:38 的发言:
请问这个语料库是在什么层次上对齐的?正确率大约是多少?

也问一句:“在什么层次上对齐的?正确率大约是多少?” 如何对齐的?目前有成熟的对齐工具吗?如果没有,请问人工对齐是如何做到的?

语料库是在句子层次上对齐。技术上由北大计算语言学所常宝宝等人负责。对其的正确率好像听说是70%左右。具体程序是这样,先做好header,人工做好段落队齐,并用<p>...</p>标记,下面就进入软件自动对齐阶段。自动对齐之后再返回到人工校对阶段,人工校对阶段英汉文本在同一个文件中,有句子之间的属性说明,如2:1等。关于使用的软件对齐则无缘目睹。要是有商业软件就好了。

mandyxie
2006-03-15, 07:47 PM
请问有没有关于红楼梦原本和译文的语料库啊?谢谢

mandyxie
2006-03-15, 07:50 PM
请问有没有关于红楼梦原本和译文的语料库啊?谢谢

laohong
2006-03-15, 09:39 PM
以下是引用 mandyxie 在 2006-3-15 19:50:26 的发言:
请问有没有关于红楼梦原本和译文的语料库啊?谢谢


请参见:

名著对译+红楼梦英译项目

http://www.corpus4u.org/showthread.php?t=1455

laohong
2006-03-15, 09:50 PM
关于句子层次的对齐,自动处理还处在研究阶段,处理实际语料基本上没戏的。基于人工标记好Header和段落符号后的自动处理,技术含量估计应该不大。不过,要提高对齐的精度,人工干预是必须的,因此,更值得关心的是:在处理大量语料时应该如何辅助人工标记段落工作,使其迅速、准确? 请问王教授在他的那本书里有这方面的介绍吗?

patricx
2006-03-15, 10:17 PM
有介绍的。他们有个对语料进行辅助加工的工具,软件由北大计算所开发编写,内部使用。在书上有所提及。

laohong
2006-03-15, 10:36 PM
谢谢Patricx!希望下次回国有机会能读读他们书中的东西,这边很难找到国内的书。

claudio
2006-06-21, 10:55 AM
请问这个语料库现在公开了吗

刘语料
2006-06-21, 11:55 AM
还没有公开.

claudio
2006-06-23, 10:33 AM
3x

大约什么时间公开呢?这个语料库会是目前规模最大的双语语料库吗?

刘语料
2006-06-23, 11:17 AM
近期内可能不会公开的, 应该是规模最大的汉英平行语料库.

explorer
2006-06-23, 08:18 PM
Good news!

jerrycheny
2006-07-04, 08:52 AM
已经过去一年了,不知道公开了没有?很期待啊

armstrong
2006-07-04, 09:04 AM
以下是引用刘语料在2006-6-23 11:17:01的发言:


近期内可能不会公开的, 应该是规模最大的汉英平行语料库.

jerrycheny
2006-07-04, 01:58 PM
那么哪里有比较小的公开的平行语料库?我最近想做一个关于汉英疑问代词的比较,想找个平行语料库

刘语料
2006-07-04, 02:31 PM
http://mtgroup.ict.ac.cn/corpus/query_process.php

xujiajin
2006-07-04, 06:22 PM
http://score.crpp.nie.edu.sg/laohong/Babel.htm

一江春水
2006-07-07, 02:38 PM
据说这个汉英平行语料库的价格会在五六百块钱左右,不公开发行,主要有版权问题。

清风出袖
2006-07-07, 02:58 PM
那么怎么接受认购呢?另外,五六百块钱认购的这个平行语料库大概是什么样的规模呢?

armstrong
2006-07-08, 01:35 PM
以下是引用清风出袖在2006-7-7 14:58:31 的发言:
那么怎么接受认购呢?另外,五六百块钱认购的这个平行语料库大概是什么样的规模呢?


麻烦一江春水老师解答!

一江春水
2006-07-10, 08:31 AM
最后公开的版本是什么样还没最后定,所以大家还是等最后的消息吧。

刘语料
2006-07-10, 11:03 AM
好的,谢谢一江春水老师。

goldking
2007-10-09, 06:08 PM
Is Chinese-English Parallel Corpus compiled by BFSU ready?
Will it be freely available? I can't wait to use it. Thanks.

ellie
2008-08-18, 09:44 AM
已经2008了,有上架的消息了吗?

Tylunas
2008-09-04, 12:58 PM
貌似在北大看到什么……
http://icl.pku.edu.cn/member/baixj/

laohong
2008-09-04, 04:40 PM
貌似在北大看到什么……
http://icl.pku.edu.cn/member/baixj/

这个有点不厚道,把人家后门给挖开了……
北大计算机系……

wandong
2008-09-06, 06:30 PM
北大平行语料库,大概是20万对,有一万对是做到词对齐的。是为了做统计机器翻译用的,主要是让计算机从里面学习有用的汉语语言知识。由于是用计算机对齐的,个人感觉不适合语言研究用。

xujiajin
2009-01-03, 01:22 AM
中英双语在线(CEO)测试开通


网址为 http://202.204.128.82/CEO/ or http://www.fleric.org.cn/ceo/

首批上网语料是200万字词。
欢迎注册使用!
本系统是中国外语教育研究中心王克非教授主持的教育部人文社科重点研究基地重大科研项目和全国社科基金项目的研究成果。

http://www.corpus4u.org/showthread.php?t=4343

flour
2009-01-05, 07:33 AM
谢谢许博士提供消息,不过只能显示100条:)

xujiajin
2009-01-05, 08:05 AM
Something is better than nothing. BNC sampler displays 50 hits for any query; Cobuild sampler 40; 卢伟英汉双语平行语料库 50 hits for free trial users.

http://sara.natcorp.ox.ac.uk/lookup.html

http://www.collins.co.uk/Corpus/CorpusSearch.aspx

http://www.luweixmu.com/ec-corpus/index.htm

laohong
2009-01-05, 11:31 AM
Something is better than nothing. BNC sampler displays 50 hits for any query; Cobuild sampler 40; 卢伟英汉双语平行语料库 50 hits for free trial users.

http://sara.natcorp.ox.ac.uk/lookup.html

http://www.collins.co.uk/Corpus/CorpusSearch.aspx

http://www.luweixmu.com/ec-corpus/index.htm

是啊,红楼梦 (http://score.crpp.nie.edu.sg/hlm/index.htm)也只给普通游客看前两页结果,毕竟不是菜市场可以完全对外开放。