关于CorpusTool的使用

为什么我用CorpusTool标注后得出的文本单词数不对呢?附件中是我的project的一部分,我想要标注出句子、T单位和错误,通过corpus</SPAN> statistics计算出句子平均长度、T单位平均长度、无误T单位平均长度、无误T单位个数、平均错误数等。可是通过file information得出的文本单词数和corpus</SPAN> statistics得出的有出入,并且同手数的有很大差别,对比的数据我也用txt文件在附件中列出了。哪位高手可以指点一下这是为什么?谢谢
 

附件

  • WECCL.rar
    30 KB · 浏览: 16
  • contrast.txt
    1.1 KB · 浏览: 15
  • contrast.rar
    279 bytes · 浏览: 10
回复: 关于CorpusTool的使用

如何定义word (token),各个程序是有差别的,如有的把don't算作一个,有的算作两个(do + n't),你自己count的结果说03-02a.txt里有237个word(Microsoft Word的结果);而如果按第二种方法算,一共应该是244个(请用EditPlus试试)。 除此之外,还要考虑到five-year-old应该算作是一个word,还是三个,或者还是五个。

另外,由于统计是根据你标注的结果来计算的,那些你没有标记T-Unit的句子(如第一篇里的“Oc course not”那句),就可能没有变为统计进去。是不是这样,建议问问软件开发者。
 
回复: 关于CorpusTool的使用

而且我觉得这些编软件的也应该把这类信息明示出来。
 
回复: 关于CorpusTool的使用

谢谢laohong。之前已经跟Prof. O'Donnell联系过了,他现在正在参加一个会议,回去之后再帮我解决。:)总的来说,这个教授还是比较热心的。
 
回复: 关于CorpusTool的使用

为什么我在执行了“Creat New Scheme”, 并Click on the Finalise button 之后,Layers in this project 下方并未出现一个编辑和删除的窗口呢?请各位高手指点迷津,谢谢!
 
Back
顶部