关于Readability Analyzer 1.0(090830修正版)的问题

各位,有哪位使用过Readability Analyzer 1.0(090830修正版)?我最近使用它来统计句子的平均长度,先试了一个文本,与我自己的人工计算的结果统计数据有较大出入,不知道问什么?请指点。谢谢。
 
回复: 关于Readability Analyzer 1.0(090830修正版)的问题

各位,有哪位使用过Readability Analyzer 1.0(090830修正版)?我最近使用它来统计句子的平均长度,先试了一个文本,与我自己的人工计算的结果统计数据有较大出入,不知道问什么?请指点。谢谢。
你把你使用的文本发上来看一下。
 
回复: 关于Readability Analyzer 1.0(090830修正版)的问题

谢谢许老师。这是经过整理,分词和词性还原的文本。我就是使用这个文本实验的。
 

附件

  • 1.txt
    4.2 KB · 浏览: 9
回复: 关于Readability Analyzer 1.0(090830修正版)的问题

谢谢许老师。这是经过整理,分词和词性还原的文本。我就是使用这个文本实验的。

经过初步测试,我发现问题出现在你的文本。

你的文本由以下问题:

1. 每行开头有两个全角空格。在2.txt里,我已经去除了。
2. 句点和问号,这些句末标点前都有空格。
3. 经过词形还原后,这些句子都变成了不合语法的句子。好比说,这些这些句子里有大量的语法和拼写错误。

目前看看,问题1、2似乎不是最主要问题。问题3是最主要问题。
我将你的文本1.txt里选出了前两段,存为3.txt,共5句。我将这些句法都改成了正确的语法形式后,统计句数就正确了。不改正前,句数小于实际句数5。

Readability Analyzer的工作原理是借助Word的拼写和语法检查功能的,如果句子中错误太多的话,一定会影响统计结果。
而你经过修改后的句子,有大量语法错误。这可能是原因所在。因此,计算句子数,你用你的原始文本就可以了。

你如果需要得到lemma数的话,Readability Analyzer是有这个功能的,就是给你生成一个lemma list。

你再试试看。
 

附件

  • 1.txt
    4.2 KB · 浏览: 10
  • 2.txt
    4.1 KB · 浏览: 6
  • 3.txt
    285 bytes · 浏览: 8
Back
顶部