corpus555的最近内容

C
【工具包下载】NLTK免安装完整版.rar

回复: 提供15个描述性统计值的在线统计计算器！李亮博士，关于这条命令：import nltk; output=""; x=open("d:\1.txt").read(); y=nltk.word_tokenize(x); z=nltk.pos_tag(y); for v in z: output=output+v[0]+"_"+v[1]+" "; open("d:\2.txt","w").write(output); print "Game Over"...
- corpus555
- Post #18
- 2015-01-17
- 论坛: 编程与工具开发
C
基于NLTK的屈折批量还原器.zip

回复: 基于NLTK的屈折批量还原器.zip 我还检查到，此方法会把一些以-s结尾的词误认为名词复数进而去掉s，比如会把一些as，was去掉s变成a,wa，此方法对一些特殊的过去分词，如felt无感，不会还原。供大家参考
- corpus555
- Post #4
- 2015-01-15
- 论坛: 编程与工具开发
C
基于NLTK的屈折批量还原器.zip

回复: 基于NLTK的屈折批量还原器.zip 我发现很多ing做非谓语和动名词都没有还原，比较级和最高级也没有还原，有没有方法能解决？李亮博士的treetagger在线版屈折还原器比这个NLTK屈折还原方法慢，而且常常说断网。
- corpus555
- Post #3
- 2015-01-15
- 论坛: 编程与工具开发
C
基于NLTK的屈折批量还原器.zip

回复: 基于NLTK的屈折批量还原器.zip 这个太好用了，那比较级和最高级有没有办法还原呢？
- corpus555
- Post #2
- 2015-01-14
- 论坛: 编程与工具开发
C
文本标注的问题，李亮博士求你来解答！

最近在对文本进行标注，主要是进行词形转换的标注，至今没有找到很方便的方法（一次能处理大小在1M以上的TXT文本）。看到的李亮博士给的方法，即用Treetagger无限制本地增强版，但我一个900kb的小说文本，用这个增强版网页处理还是显示too many words，不得不分批完成。现在词形转换的标注完成了，但是我想去掉原来的单词和下划线，仅保留转换后的单词组成一个完整的文本。即想把图片1的文本变成图片2的效果，请问有没有什么方法。另外，有没有比Treetagger增强版更强大的方法能处理1M以上的TXT文本？图片1 图片2
- corpus555
- 主题
- 2015-01-14
- 回覆: 1
- 论坛: 编程与工具开发

corpus555的最近内容

【工具包下载】NLTK免安装完整版.rar

基于NLTK的屈折批量还原器.zip

基于NLTK的屈折批量还原器.zip

基于NLTK的屈折批量还原器.zip

文本标注的问题，李亮博士求你来解答！