请教:WordSmith4和台湾中央研究院计算的MI值为何不同?

请教:WordSmith4和台湾中央研究院计算的MI值为何不同?
我在台湾中央研究院现代汉语平衡语料库(网址:http://www.sinica.edu.tw/ftms-bin/kiwi1/mkiwi.sh)中检索“万一”一词,得163例。然后:
方法一:继续在检索页面点“进阶处理”,选“Collocation”,“频率下限”设为4,“范围起讫”分别设为-2,2,得下表:
共 24 項
MI freq(y) freq(x,y) y:詞/詞類
5.797 434 4 小心(VK)
5.598 1191 9 真的(D)
5.598 927 7 怕(VK)
4.763 2135 7 發生(VJ)
4.371 1806 4 真(D)
4.236 2583 5 不過(Cbb)
4.024 2555 4 嗎(T)
3.544 7229 7 被(P)
3.147 10754 7 她(Nh)
3.120 17351 11 ?
3.090 6501 4 只(Da)
2.674 17250 7 你(Nh)
2.547 19595 7 說(VE)
2.529 45592 16 有(V_2)
2.416 15943 5 了(T)
2.313 38904 11 不(D)
2.283 21870 6 :
2.195 31821 8 了(Di)
2.185 40197 10 我(Nh)
2.124 482780 113 ,
2.123 29929 7 他(Nh)
1.584 190578 26 。
1.155 56300 5 在(P)
-0.690 284944 4 的(D

方法二:检索完毕后,复制检索页面中所有“万一”例句到Word程序,将繁体简化后存为ANSI文本文件,用FreeICTCLAS分词后,再存为Unicode文本文件。用WordSmith4计算MI值,min.frequency设为2,max.frequency % 为0.5,span为4,From A to Z,得下表:
N Word 1 Freq. Word 2 Freq. Texts Gap Joint MI Z MI3 Log L. Set
1 # 7 # 7 1 3 2 7.13 5.58 9.13 17.06
2 保护 9 保护 9 1 2 2 6.41 4.17 8.41 14.75
3 比例 5 不过 36 1 1 2 5.25 2.45 7.25 11.68
4 比例 5 万一 162 1 3 2 3.08 0.08 5.08 5.80
5 成绩 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
6 发展 11 可以 23 1 2 2 4.76 1.84 6.76 9.88
7 防火 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
8 防火 5 发展 11 1 2 2 6.96 5.23 8.97 16.65
9 公司 9 上面 7 1 1 2 6.77 4.84 8.77 15.90
10 就是 8 万一 162 1 1 4 3.41 0.57 7.41 13.82
11 老太婆 7 当即 7 1 1 2 7.13 5.58 9.13 17.06
12 平安 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
13 平安 5 一个 37 1 1 2 5.21 2.40 7.22 11.56
14 台湾 8 一个 37 1 1 2 4.54 1.58 6.54 9.36
15 现场 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
16 小豆 6 万一 162 1 1 3 3.41 0.50 6.58 10.35
17 以致 10 万一 162 1 3 4 3.08 0.11 7.09 11.64

比较两表,发现有较大不同。
请教:为何会有这么大的差异?我的操作或错误在哪里?如何使用Wordsmith4使计算结果与台湾中央研究院语料库的一致?
再问:如何在WordSmith4中单独计算与“万一”有关的搭配的MI值?
不胜感激!
 
回复: 请教:WordSmith4和台湾中央研究院计算的MI值为何不同?

MI有很多种算法,两个值不一样很可能是因为采用的计算公式不一样。
 
回复: 请教:WordSmith4和台湾中央研究院计算的MI值为何不同?

台湾中央研究院的计算公式:
MI的計算:

I(x,y)=log P(x,y)/P(x)P(y)

=log f(x,y)/N .
f(x)/N?f(y)/N
I:mutual information
P:probability
N:size of the corpus
freq(x):關鍵詞在整個語料庫中出現的次數
freq(y):該單位在整個語料庫中出現的次數
freq(x,y):關鍵詞和該單位在本次範圍內出現的次數

WordSmith4帮助中提到:(P144)
There are various different formulae for computing the strength of collocational relationships. The MI in WordSmith ("specific mutual information") is computed using a formula derived from Gaussier, Lange and Meunier described in Oakes, p. 174; here the probability is based on totalcorpus size in tokens. Other measures of collocational relation are computed too, which you will see explained under Mutual Information Display。

注:Oakes, Michael P. 1998, Statistics for Corpus Linguistics, Edinburgh: Edinburgh University Press.

请再指教。
 
回复: 请教:WordSmith4和台湾中央研究院计算的MI值为何不同?

3.2.5 Mutual information for the extraction of bilingual word pairs
Gaussier, Lange and Meunier (1992) used the specific mutual information
measure to automatically extract bilingual word couples from bilingual
corpora. They start with the Canadian Hansards, a bilingual corpus in both
English and French, where each English source sentence is aligned with its
target French translation.The strength of association between an English word
denoted e and a French word denoted f will be high if these two words are
translations of each other.The formula for specific mutual information, I(e f), as
used by Gaussier, Lange and Meunier, is as follows:
I (e, .f) = log 2 p(e, f )
P(e)p(f)
In this context, p(etf) is the probability of finding both e and fin aligned
sentences. To find p(ef), the number of occasions e andfare found in aligned
sentences within the corpus is divided by the total number of aligned sentences
in the corpus, whether they contain e or for not. p(e) is the probability of
finding e in an English sentence (found by dividing the number of times e
occurs in the corpus by the total number of aligned sentences in the corpus)
and p(f) is the probability of finding fin a French sentence.


所以你可以看出来中研院采取的取对数,而词匠中的对数取得是以2位底数的的对数,是不是结果不一样问题在这里呢?
 
Back
顶部