请教如何统计一篇文章的类符数?How to count all word types in a text?

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

不明白你说的什么意思?跟什么的接口。
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

许博士您好,我是一名大四的学生,现在正在写一个提取英文文本关键词的程序,您提供的软件对输入的英文文本每个单词统计词频并进行了分词处理,我想把软件运行结果直接用到自己的程序中,这个需要一个API程序吧!
 

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

明白了,我们目前没有时间做这个。
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

哦,谢谢您,许博士!
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

哦,谢谢您,许博士!
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

许博士:
谢谢您的无私帮助。我还想再向您请教一下王立非教授的《基于语料库的大学生英语议论文中的语块使用模式研究》文章里的标准类型符比是如何统计出来的,如果我要用您设计的那个Readability_Analyzer软件来计算标准类型符比,该如何操作呢?那篇文章以及另我费解的里的数据贴图如下(见附件)。麻烦您帮帮我。解释一下标准类型符比是怎么计算出来的。它跟类符比有什么区别?我用wordsmith统计时,发现有时候不会出现标准类型符比,却有类符比的数据。真是云里雾里:mad:,还望博士点拨一下。。。不胜感激。
 

附件

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

With Readability Analyzer, you 'choose texts' and press 'analyze', all indices will be reported in the results window. You can read STTR from the results.

Trust me, it cannot be easier. Give it a try.

WordSmith sets 1000 words as the basis for STTR by default. Once your text is shorter than 1000 words, STTR will not be shown.
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

With Readability Analyzer, you 'choose texts' and press 'analyze', all indices will be reported in the results window. You can read STTR from the results.

Trust me, it cannot be easier. Give it a try.

WordSmith sets 1000 words as the basis for STTR by default. Once your text is shorter than 1000 words, STTR will not be shown.
Dear Dr. XU:

Thank you very much for your readiness to help. You're really a great help. Thanks again! Wish i won't bother you too much!:p
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

想请教一下许博士:
在使用Readability Analyzer 1.0(090830修正版)时,点击analyze老是出现“没有注册类别,ClassID:{000209FF-0000-0000-0000-000000000046}”results为空,这是怎么回事呢?十分感谢!
 

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

你把你的文本发上来看看。有时是因为文本有问题导致的。
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

这只是其中的一个文本,麻烦许博士了。原文件(PDF格式)中有些公式在转换成txt文本时出现乱码,因为不影响研究的内容,也就没有进行处理,不知是不是这个原因造成的,想向您请教一下,不胜感激。
 

附件

xusun575

高级会员
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

这只是其中的一个文本,麻烦许博士了。原文件(PDF格式)中有些公式在转换成txt文本时出现乱码,因为不影响研究的内容,也就没有进行处理,不知是不是这个原因造成的,想向您请教一下,不胜感激。
我把你的txt文件整理了一下. 可能与语言设置有关.
你使用的是哪一款OCR工具?
 

附件

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

这只是其中的一个文本,麻烦许博士了。原文件(PDF格式)中有些公式在转换成txt文本时出现乱码,因为不影响研究的内容,也就没有进行处理,不知是不是这个原因造成的,想向您请教一下,不胜感激。
你的文本格式有些问题,我们称为文本不干净。从下面贴的图可以看到至少有三类问题。
1、断行(line break),行末句子未完即出现回车,软件没法计算句长。很多依赖句长的参数也就无法得出。

2、有乱字符。影响字数,type、token、lemma的计算。

3、多余空格,这个影响不大。

解决办法:清理文本。

pdf行尾回车去掉。有人在Word里查找替换,有人用正则表达式。你自己在论坛上查吧,百度上也可以查。
乱码自己手工清理。
 

附件

回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

我把你的txt文件整理了一下. 可能与语言设置有关.
你使用的是哪一款OCR工具?
原始文本是pdf格式的电子文档,我只是将其文字内容复制到了txt文档中。
还想请教一下老师:我的电脑中没安装microsoft office,而是用的WPS office,是不是这个原因导致的呢?十分感谢。
 

xujiajin

管理员
Staff member
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

我没用过WPS,我不知道。
 

xusun575

高级会员
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

原始文本是pdf格式的电子文档,我只是将其文字内容复制到了txt文档中。
还想请教一下老师:我的电脑中没安装microsoft office,而是用的WPS office,是不是这个原因导致的呢?十分感谢。
若不介意,请把01.txt或其它的pdf文件发一上来.
 
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

若不介意,请把01.txt或其它的pdf文件发一上来.
原因我已经找到了,之前我试过电脑没有安装microsoft office 的情况下和装有microsoft office 但无拼写与语法纠正功能的情况下Readability Analyzer 1.0不能正常运行,都会出现“没有注册类别,ClassID:{000209FF-0000-0000-0000-000000000046}”的错误提示。
今天我重装了一下microsoft office,Readability Analyzer 1.0就可以正常运行了(当然前提是文本事先要清洁干净)。
非常感谢xusun575和xusun575两位老师无私的指点与帮助,Thank you so much, our dear teachers!
 

附件

xusun575

高级会员
回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

用ABBYY转换,语言设置除英文后还应包括数字.
01.doc是OCR后的文件, trial 01.doc是01.doc转换成txt然后存为doc
.
 

附件

回复: 请教如何统计一篇文章的类符数?How to count all word types in a text?

請問 如果想進一步統計某個詞類裡的type和token應該怎麼做呢?
 
顶部