wordsmith4.0检索weccl的议论文部分,结果有问题?

corpora

初级会员
我用wordsmith4.0导入所有的weccl的议论文部分, 生成一个词表。但结果中standardised TTR一项为没有信息。空白。这是什么原因呢?对其他的库不存在这个问题?请高人指教。谢谢了。
 
回复: wordsmith4.0检索weccl的议论文部分,结果有问题?

检索weccl生成词表统计数据时,wst 4.0默认的基数是1000,总词数少于1000词的文本其STTR(standardised type/token ration)便是0。weccl中所搜集的学生语料平均长度大致在250词左右,所及如果使用wst 4.0默认的标准化类型符基数(standardised type/token basis)为1000计算式,STTR当然会是0。可以在setting->wordlist 下,通过调整standardised type/token basis 来计算出STTR。

这儿有些相关信息可以参考:
http://www.lexically.net/downloads/version5/HTML/index.html?type_token_ratio_proc.htm
 
回复: wordsmith4.0检索weccl的议论文部分,结果有问题?

检索weccl生成词表统计数据时,wst 4.0默认的基数是1000,总词数少于1000词的文本其STTR(standardised type/token ration)便是0。weccl中所搜集的学生语料平均长度大致在250词左右,所及如果使用wst 4.0默认的标准化类型符基数(standardised type/token basis)为1000计算式,STTR当然会是0。可以在setting->wordlist 下,通过调整standardised type/token basis 来计算出STTR。

这儿有些相关信息可以参考:
http://www.lexically.net/downloads/version5/HTML/index.html?type_token_ratio_proc.htm

您说的很有道理。非常感谢。我试了一下,确实如此。另外请问2个问题1.)假如我比较wecll和Brown中的type数量如何,那么采用哪种方法更合理,方法一是用wordsmith统计wordlist,其设置的type统计基数都设为200,方法二通过重新调整wecll的格式,把它的小文件都合并为一个。如果是方法二更合理的话,有没有把若干小文件合并为一个大文件的软件??
问题2.)我要比较两个语料库中的某类词,比如跟着副词的动词的数量和种类的多少,数量可以用SF(Standardized frequency)比较, 那么type怎么样才有可比性呢,通过type/token ratial 吗? 担心没有可比性,因为库容不同。但是这个有办法计算STTR吗?我自己没想出来,请大家教教我吧。
 
Back
顶部