求助标准频数问题

各位高手,请问标准频数应怎样求得?公式是(单词频率/语料库容量)*100,000 还是乘以10,000?这个数值是不是不固定啊?
 
回复: 求助标准频数问题

这个100,000或者10,000不是固定的。标准频率的计算便于不同库容的语料库之间,同一搜索词出现频率的比较。
比如语料库A的库容是1,230,000,语料库B库容是1,160,000. 某个搜索词在A中出现的频率是1000,那么它的标准频率可以这样算 (1000/1230000)*1000000=813
搜索词在B中出现频率是899,那么换算成标准频率就是 (899/1160000)*1000000=775
由此可见,搜索词在A中的出现的比例比在B中高. 以上计算是以百万作为标准库容.
 
Last edited:
Back
顶部