再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

yuliaoku

初级会员
还得求教高人:
如果一个语料库的TTR(或STTR)是46.8,另一个是47.2,如何确定它们之间的差异是否具有显著性。抑或根据这两个值就可以直接说它们之间具有差异呢?
遍查手头参考书,均未有说明,还得到这里来求许博士这样的高人帮助。
谢谢!
 
回复: 再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

你是问许博士的,在下不才冒昧回答一下可以吗?
你所谓的Token和Type只比好像代表了一个词汇量大小数字吧?一般的语料库软件,比如WordSmith或者Antcounc都能解决这个问题。比如统计出来type后再统计Token,然后算出二者之比。
 
回复: 再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

《语料库应用教程》91-94页有相关讨论,另外可在Corpus4U上查卡方和对数似然比相关内容。
 
回复: 再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

谢谢许博和另一位C友的答复。我可能没有表达清楚。以下再把问题更清楚地表达一次:

如果是求某个词在两个语料库中的分布之间差异的显著性,如某词在A库中出现320次(A库有183,279词);在B库中出现389次(B库有173,273词),我知道可以用卡方或LL来计算。我问的不是这个问题。这个问题许博已经帮我解决了。

我问的是:如果上面两个库的类符形符比分别为46.3和48.4,因为不是具体数字,而是“比”,这还能用卡方或LL来计算差异的显著性吗?如果不能应该用什么方法来计算呢?

还得求许博指导。

致以真诚的谢意!
 
回复: 再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

卡方检验和log likelihood要求用raw frequency,不用比率。
TTR之间(46.3和48.4)可直接比。但无法得到显著性那些值。
 
回复: 再次求助:两个语料库的类符形符比之间的差异用什么方法检验显著性

Got it.
Thank you very much, Dr. Xu!
 
Back
顶部