建立英文版红楼梦小说语料库 困扰

求各路高人帮帮晚辈:
本人论文需建立红楼梦英文版小说语料库,现已下载了word版本,并将其粘入text。在用antconc 进行关键词检索时,检索结果页面出现好多乱码。
致电给导师后,说需要文本预处理,但是怎么预处理,本人不懂啊!!!!!
谁能帮帮我啊,或者谁有建好的英文红楼梦语料库,可否分享一下呢?:confused::confused::confused::confused:
 
回复: 建立英文版红楼梦小说语料库 困扰

或许你是个语料库初学者,还是找本语料库操作的书看看,或者网上的AntConc的操作说明看看。
有乱码,或许是你的原文不干净。你传一部分含乱码的文本上来,Corpus4U上高手很多,大家一看文本便知。
 
回复: 建立英文版红楼梦小说语料库 困扰

或许你是个语料库初学者,还是找本语料库操作的书看看,或者网上的AntConc的操作说明看看。
有乱码,或许是你的原文不干净。你传一部分含乱码的文本上来,Corpus4U上高手很多,大家一看文本便知。
CFSYG{UM[KV)2)GEQFE~)GH.jpg
:(真的是初学者,老师也讲不出什么东西。
图片上传了,比如第2、6行后面出现的乱码。
您的帮助,不胜感激!!!太感激了
 
回复: 建立英文版红楼梦小说语料库 困扰

问题不大,主要是标点符号导致的,不影响你的检索。
比如 didn't中间的apostrophe和引号,有时显示就会是这样。

你可不去管它。

这个跟你从word里拷过来有一定关系(当然也不尽然),主要是引号和撇号会出这样的问题。其实从didn't就可以猜出来是apostrophe的问题。
 
回复: 建立英文版红楼梦小说语料库 困扰

问题不大,主要是标点符号导致的,不影响你的检索。
比如 didn't中间的apostrophe,有时显示就会是这样。

你可不去管它。
o !这样啊!太好了 谢谢 非常感谢
老师讲不明白,就推荐我们来这个网站:p
 
Back
顶部