corpus555的最近内容

  1. C

    【工具包下载】NLTK免安装完整版.rar

    回复: 提供15个描述性统计值的在线统计计算器! 李亮博士,关于这条命令:import nltk; output=""; x=open("d:\1.txt").read(); y=nltk.word_tokenize(x); z=nltk.pos_tag(y); for v in z: output=output+v[0]+"_"+v[1]+" "; open("d:\2.txt","w").write(output); print "Game Over"...
  2. C

    基于NLTK的屈折批量还原器.zip

    回复: 基于NLTK的屈折批量还原器.zip 我还检查到,此方法会把一些以-s结尾的词误认为名词复数进而去掉s,比如会把一些as,was去掉s变成a,wa,此方法对一些特殊的过去分词,如felt无感,不会还原。供大家参考
  3. C

    基于NLTK的屈折批量还原器.zip

    回复: 基于NLTK的屈折批量还原器.zip 我发现很多ing做非谓语和动名词都没有还原,比较级和最高级也没有还原,有没有方法能解决?李亮博士的treetagger在线版屈折还原器比这个NLTK屈折还原方法慢,而且常常说断网。
  4. C

    基于NLTK的屈折批量还原器.zip

    回复: 基于NLTK的屈折批量还原器.zip 这个太好用了,那比较级和最高级有没有办法还原呢?
  5. C

    文本标注的问题,李亮博士求你来解答!

    最近在对文本进行标注,主要是进行词形转换的标注,至今没有找到很方便的方法(一次能处理大小在1M以上的TXT文本)。看到的李亮博士给的方法,即用Treetagger无限制本地增强版,但我一个900kb的小说文本,用这个增强版网页处理还是显示too many words,不得不分批完成。现在词形转换的标注完成了,但是我想去掉原来的单词和下划线,仅保留转换后的单词组成一个完整的文本。即想把图片1的文本变成图片2的效果,请问有没有什么方法。另外,有没有比Treetagger增强版更强大的方法能处理1M以上的TXT文本? 图片1 图片2
Back
顶部