请教:WordSmith4和台湾中央研究院计算的MI值为何不同?
我在台湾中央研究院现代汉语平衡语料库(网址:http://www.sinica.edu.tw/ftms-bin/kiwi1/mkiwi.sh)中检索“万一”一词,得163例。然后:
方法一:继续在检索页面点“进阶处理”,选“Collocation”,“频率下限”设为4,“范围起讫”分别设为-2,2,得下表:
共 24 項
MI freq(y) freq(x,y) y:詞/詞類
5.797 434 4 小心(VK)
5.598 1191 9 真的(D)
5.598 927 7 怕(VK)
4.763 2135 7 發生(VJ)
4.371 1806 4 真(D)
4.236 2583 5 不過(Cbb)
4.024 2555 4 嗎(T)
3.544 7229 7 被(P)
3.147 10754 7 她(Nh)
3.120 17351 11 ?
3.090 6501 4 只(Da)
2.674 17250 7 你(Nh)
2.547 19595 7 說(VE)
2.529 45592 16 有(V_2)
2.416 15943 5 了(T)
2.313 38904 11 不(D)
2.283 21870 6 :
2.195 31821 8 了(Di)
2.185 40197 10 我(Nh)
2.124 482780 113 ,
2.123 29929 7 他(Nh)
1.584 190578 26 。
1.155 56300 5 在(P)
-0.690 284944 4 的(D
方法二:检索完毕后,复制检索页面中所有“万一”例句到Word程序,将繁体简化后存为ANSI文本文件,用FreeICTCLAS分词后,再存为Unicode文本文件。用WordSmith4计算MI值,min.frequency设为2,max.frequency % 为0.5,span为4,From A to Z,得下表:
N Word 1 Freq. Word 2 Freq. Texts Gap Joint MI Z MI3 Log L. Set
1 # 7 # 7 1 3 2 7.13 5.58 9.13 17.06
2 保护 9 保护 9 1 2 2 6.41 4.17 8.41 14.75
3 比例 5 不过 36 1 1 2 5.25 2.45 7.25 11.68
4 比例 5 万一 162 1 3 2 3.08 0.08 5.08 5.80
5 成绩 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
6 发展 11 可以 23 1 2 2 4.76 1.84 6.76 9.88
7 防火 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
8 防火 5 发展 11 1 2 2 6.96 5.23 8.97 16.65
9 公司 9 上面 7 1 1 2 6.77 4.84 8.77 15.90
10 就是 8 万一 162 1 1 4 3.41 0.57 7.41 13.82
11 老太婆 7 当即 7 1 1 2 7.13 5.58 9.13 17.06
12 平安 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
13 平安 5 一个 37 1 1 2 5.21 2.40 7.22 11.56
14 台湾 8 一个 37 1 1 2 4.54 1.58 6.54 9.36
15 现场 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
16 小豆 6 万一 162 1 1 3 3.41 0.50 6.58 10.35
17 以致 10 万一 162 1 3 4 3.08 0.11 7.09 11.64
比较两表,发现有较大不同。
请教:为何会有这么大的差异?我的操作或错误在哪里?如何使用Wordsmith4使计算结果与台湾中央研究院语料库的一致?
再问:如何在WordSmith4中单独计算与“万一”有关的搭配的MI值?
不胜感激!
我在台湾中央研究院现代汉语平衡语料库(网址:http://www.sinica.edu.tw/ftms-bin/kiwi1/mkiwi.sh)中检索“万一”一词,得163例。然后:
方法一:继续在检索页面点“进阶处理”,选“Collocation”,“频率下限”设为4,“范围起讫”分别设为-2,2,得下表:
共 24 項
MI freq(y) freq(x,y) y:詞/詞類
5.797 434 4 小心(VK)
5.598 1191 9 真的(D)
5.598 927 7 怕(VK)
4.763 2135 7 發生(VJ)
4.371 1806 4 真(D)
4.236 2583 5 不過(Cbb)
4.024 2555 4 嗎(T)
3.544 7229 7 被(P)
3.147 10754 7 她(Nh)
3.120 17351 11 ?
3.090 6501 4 只(Da)
2.674 17250 7 你(Nh)
2.547 19595 7 說(VE)
2.529 45592 16 有(V_2)
2.416 15943 5 了(T)
2.313 38904 11 不(D)
2.283 21870 6 :
2.195 31821 8 了(Di)
2.185 40197 10 我(Nh)
2.124 482780 113 ,
2.123 29929 7 他(Nh)
1.584 190578 26 。
1.155 56300 5 在(P)
-0.690 284944 4 的(D
方法二:检索完毕后,复制检索页面中所有“万一”例句到Word程序,将繁体简化后存为ANSI文本文件,用FreeICTCLAS分词后,再存为Unicode文本文件。用WordSmith4计算MI值,min.frequency设为2,max.frequency % 为0.5,span为4,From A to Z,得下表:
N Word 1 Freq. Word 2 Freq. Texts Gap Joint MI Z MI3 Log L. Set
1 # 7 # 7 1 3 2 7.13 5.58 9.13 17.06
2 保护 9 保护 9 1 2 2 6.41 4.17 8.41 14.75
3 比例 5 不过 36 1 1 2 5.25 2.45 7.25 11.68
4 比例 5 万一 162 1 3 2 3.08 0.08 5.08 5.80
5 成绩 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
6 发展 11 可以 23 1 2 2 4.76 1.84 6.76 9.88
7 防火 5 万一 162 1 1 2 3.08 0.08 5.08 5.80
8 防火 5 发展 11 1 2 2 6.96 5.23 8.97 16.65
9 公司 9 上面 7 1 1 2 6.77 4.84 8.77 15.90
10 就是 8 万一 162 1 1 4 3.41 0.57 7.41 13.82
11 老太婆 7 当即 7 1 1 2 7.13 5.58 9.13 17.06
12 平安 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
13 平安 5 一个 37 1 1 2 5.21 2.40 7.22 11.56
14 台湾 8 一个 37 1 1 2 4.54 1.58 6.54 9.36
15 现场 5 万一 162 1 2 2 3.08 0.08 5.08 5.80
16 小豆 6 万一 162 1 1 3 3.41 0.50 6.58 10.35
17 以致 10 万一 162 1 3 4 3.08 0.11 7.09 11.64
比较两表,发现有较大不同。
请教:为何会有这么大的差异?我的操作或错误在哪里?如何使用Wordsmith4使计算结果与台湾中央研究院语料库的一致?
再问:如何在WordSmith4中单独计算与“万一”有关的搭配的MI值?
不胜感激!