语料库新手的初步学习成果,下一步该做什么

尊敬的各位坛友
我是一名大学教师,去年刚毕业。在去年十二月的一次开会时院长提出要为翻译系建语料库的设想。从那是开始我才开始了解语料库。以前都从没听说过这是什么东西,会有什么作用。
利用假期时间读了如下的书籍,并浏览了本论坛几乎所有的帖子,整理出一些思路,但我深知离建成一个语料库还差的很远,可是接下来我应该做什么,使用什么软件,我真是一头雾水。因本人周围没有一个人懂得语料库的相关知识,所以迫切地希望各位坛友提些意见和建议。另外如有人知道长春周围,甚至东北三省范围内有哪位老师会语料库相关的创建,请告诉我,我想拜师。
对于各位的帮助,本人不胜感激。
顺祝所有的坛友健康、幸福!

我所读的书

1. Meyer, Charles F(2002). English Corpus Linguistics: An Introduction.London:Cambridge University Press
2. [FONT=宋体]杨惠中,[/FONT]2002[FONT=宋体],语料库语言学导论。上海:上海外语教育出版社[/FONT]
3. Sinclair, John (1991), Corpus Concordance Collocation. NY: Oxford
4. Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies[FONT=宋体]《基于语料库的语言对比和翻译研究》[/FONT]. Amsterdam : Rodopi. [FONT=宋体](外研社引进)[/FONT]
[FONT=宋体]5. Hunston, Susan (2002) Corpora in Applied Linguistics. England: Cambridge University Press[/FONT][FONT=宋体]应用语言学中的语料库:(英)霍斯顿[/FONT] [FONT=宋体]著世界图书出版公司[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
 
回复: 语料库新手的初步学习成果,下一步该做什么

我整理出的思路

[FONT=宋体]【中标注的部分为笔者的疑问,恳请导师就参考书目之前的内容指教,万谢】[/FONT]

[FONT=宋体]我的语料库研究第一步[/FONT]
Liw568[FONT=宋体]的建立双语平行语料库学习资料[/FONT]

一、研究的目的和步骤
[FONT=宋体]目的[/FONT][FONT=宋体]:[/FONT]
1. [FONT=宋体]了解并能够使用语料库软件[/FONT]
2. [FONT=宋体]体验双语语料库作为一种新的教学和科研方式的优势[/FONT]
3. [FONT=宋体]建立一个类似《红楼梦汉英平行语料库》的英汉新闻翻译句对齐双语平行语料库。此语料库只要能实现最基本的语料库功能就行,笔者仅以此作为以后开始语料库相关研究的第一步。如:能够实现输入一个汉语或英语的索引项(词或短语),即可以输出所有包含索引项的英汉对应的句子。[/FONT]
[FONT=宋体]【做一个类似红楼梦汉英平行语料库适不适合语料库初学者?】[/FONT]
[FONT=宋体]红楼梦汉英平行语料库[/FONT]http://score.crpp.nie.edu.sg/hlm/index.htm

[FONT=宋体]步骤[/FONT]
[FONT=宋体]因笔者要建立一个简易的语料库,故步骤为:搜集语料[/FONT][FONT=宋体]实现句子对齐[/FONT][FONT=宋体]加入检索工具[/FONT]
[FONT=宋体]【只有这几步可以吗?】[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][FONT=宋体]二、生语料(部分)[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]1. 语料示例[/FONT]
来自VOA双语新闻[FONT=宋体]没有特意做过句对齐。[/FONT]

[FONT=宋体]【在[/FONT]corpus4u[FONT=宋体]里看有人说生语料采取什么形式要看索引软件用什么,但也有另一种说法说最好存成[/FONT]text[FONT=宋体]文件。我该怎么办呢?】[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]Former US Fed Chief Somber on Economic Prospects
[FONT=宋体]([/FONT]sy0915a[FONT=宋体])[/FONT]
[FONT=宋体]格林斯潘:美国似乎难免经济衰退[/FONT]
Amid continued upheaval among America's biggest financial firms, a former head of the U.S. Federal Reserve says even more institutions could face insolvency, and that the United States appears unlikely to avoid an economic recession.
[FONT=宋体]前美联储主席格林斯潘说,在美国最大的一些金融公司持续动荡之际,可能会有更多的机构面临破产,而且美国似乎不大可能避免经济衰退。[/FONT]

After leading the U.S. central bank from 1987 until two years ago, Alan Greenspan remains one of America's influential voices on economic matters.
[FONT=宋体]格林斯潘[/FONT][FONT=宋体]从[/FONT]1987[FONT=宋体]年开始一直担任美国央行行长,直到两年前。但是他仍然是对美国经济问题最有影响力的人之一。[/FONT]
[/FONT]


2. [FONT=宋体]备选软件[/FONT]
t2html - Text to HTML converter


[/FONT]

[FONT=宋体][/FONT]
 
回复: 语料库新手的初步学习成果,下一步该做什么

[FONT=宋体]三、语料预处理[/FONT] ( preprocessing of the parallel corpora)
[FONT=宋体]【如果我的语料库只要实现句对齐,是不是就不需要步骤[/FONT]1[FONT=宋体]、[/FONT]2[FONT=宋体]了】[/FONT]
[FONT=宋体]最大的问题【我下面列出的软件都来自[/FONT]corpus4u[FONT=宋体]中网友的帖子中,每步我到底应该选择哪个呢?我需要好用的常用的软件,最好是免费的,如果没有,也可以考虑购买】[/FONT]
1. [FONT=宋体]对语料库的汉语部分进行切分和词性标注[/FONT];
[FONT=宋体]备选软件[/FONT]
ICTCLAS2008
2. [FONT=宋体]对英语部分进行断词( tokenization) [FONT=宋体]、形态分析[/FONT] ( lemmatization) [FONT=宋体]以及词性标注[/FONT];
Taggit
Claws[FONT=宋体][/FONT][FONT=宋体]有人说[/FONT]claws[FONT=宋体]正确率很高)[/FONT]
[FONT=宋体]Gotagger
Wmatrix (“[FONT=宋体]英文[/FONT]POS[FONT=宋体]和[/FONT]semantic [FONT=宋体]可以使用[/FONT]Wmatrix[FONT=宋体]进行大批量处理”坛友的话[/FONT])
3. [FONT=宋体]对汉语文本和英文文本在句子层面进行对齐
[FONT=宋体]备选软件[/FONT]
Trados
Sentence alignment
[FONT=宋体]四、检索(concordence[FONT=宋体])[/FONT]
[FONT=宋体]【因笔者目前还不会编程。但如果编这样一个程序不需要很多时间的话,我可以找人帮忙。】[/FONT]
antcorc
perl
Xaira[FONT=宋体]免费的[/FONT]
Python
ParaConc
[FONT=宋体]五、系统测试与结果分析[/FONT] ( system trial and analyses of results)

[/FONT]

[FONT=宋体][/FONT][/FONT]

[/FONT]

[/FONT]
 
回复: 语料库新手的初步学习成果,下一步该做什么

顶一下,其实做论文也是个很好的学习新知识的过程。
 
回复: 语料库新手的初步学习成果,下一步该做什么

挺佩服楼主的精神和务实的作风的。建议你先拿一篇中英对照的语料先试试。练习中才能发现问题。:)
 
回复: 语料库新手的初步学习成果,下一步该做什么

看见有这些人的关注,就是对我最大的支持了。
可是我的问题是:现在手头有语料,但不知道哪一步用哪个软件试?
在网期待
 
回复: 语料库新手的初步学习成果,下一步该做什么

在此公开感谢一下laohong,


师者--传道授业解惑者也。


这句话送给最称职的laohong.

在此把所有美好的祝福送给您。

我会像您对待我们一样对待我的学生们。

再一次谢谢
 
回复: 语料库新手的初步学习成果,下一步该做什么

liw568找到laohong,真是找对人了。:)
 
Back
顶部