关于新闻语料库!!!

[FONT=宋体]大家好,我是一名应届毕业生,我的毕业设计是关于新闻语料库的,可是我一点头绪都没有,大家能不能给我一些意见和建议呢!!!(以下是我的任务书)[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]一、[/FONT][FONT=宋体]毕业设计(论文)题目:[/FONT][FONT=宋体]新闻文本语料库构建          [/FONT]

[FONT=宋体]四、[/FONT][FONT=宋体]任务书的内容:[/FONT]
[FONT=宋体](Ⅰ)任务背景和意义:[/FONT]​
[FONT=宋体]在基于例子的机器翻译(EBMT)中,语料库及匹配规则起到非常重要的作用。其中匹配规则一般采用广义模糊匹配,不属于本课题研究范畴。一般而言,通用语料库包含政治、经济、法律、体育、IT、古汉语等领域,本课题仅选取大众化用语--新闻语料作为代表。[/FONT]
[FONT=宋体]本课题尝试从新闻语料入手,自动构造语料库,并提供快速检索语料库的接口。[/FONT]
[FONT=宋体] [/FONT][FONT=宋体](Ⅱ)内容与要求 [/FONT]
[FONT=宋体](1)收集与阅读有关该课题的最新国内外文献资料(导师给定的阅读资料或通过自己收集的资料),了解EBMT,了解语料库构建技术,了解通用搜索引擎技术细节;[/FONT]
[FONT=宋体](2)自动抓取新闻网站网页,转存到本地磁盘文件或者直接生成语料库,且可以自动智能更新;[/FONT]
[FONT=宋体]参考网站:http://sourceforge.net/projects/archive-crawler[/FONT]
[FONT=宋体]http://sourceforge.net/projects/weblech[/FONT]
[FONT=宋体]http://sourceforge.net/projects/wherespider[/FONT]
[FONT=宋体]http://sourceforge.net/projects/websphinx[/FONT]
[FONT=宋体]http://sourceforge.net/projects/j-spider[/FONT]
[FONT=宋体](3)合理设计语料库结构,并将新闻文本存储到语料库中;[/FONT]
[FONT=宋体](4)设计语料库索引结构,并实现大规模语料库的快速检索;[/FONT]
[FONT=宋体]参考网站:http://zh.wikipedia.org/wiki/倒排索引[/FONT]
[FONT=宋体](5)[/FONT][FONT=宋体]提供简单Web查询接口,并测试语料库。[/FONT]
 
回复: 关于新闻语料库!!!

跟我的相似呢,我的毕业论文做的是法律英语语料库,可是也是一点头绪都没有啊……哎……
 
回复: 关于新闻语料库!!!

希望两位都建好了, 而且毕业后能作为公开资源,我还等着呢
 
Back
顶部