查看完整版本 : 请教:如何计算出CLEC中avoid 的名词显著搭配词?
hancunxin
2006-09-29, 10:19 AM
请教:如何计算出CLEC中avoid 的名词显著搭配词(Z>3)?受手上软件的限制,暂时想不出来好的方法,恳请各位赐教.跨距 -5/+5,统计值用Z值
armstrong
2006-09-29, 10:32 AM
可以使用三种方法:
1.用WST4.0,对文件Index后直接可以得出Z,MI,MI3,LL值;
2.用任意一种索引软件,检索出avoid出现的频率,搭配词的出现频率,检索词和搭配词共现频率,在给出跨距后,代入网友dzhinger提供给各位的基于EXCEL的Z值等计算模板中计算;
3.也可以在检索后的基础上使用ACWT中的Z值计算公式。
Thanks a lot,armstrong. It's feasible.
hancunxin
2006-10-01, 10:35 AM
可以使用三种方法:
1.用WST4.0,对文件Index后直接可以得出Z,MI,MI3,LL值;
2.用任意一种索引软件,检索出avoid出现的频率,搭配词的出现频率,检索词和搭配词共现频率,在给出跨距后,代入网友dzhinger提供给各位的基于EXCEL的Z值等计算模板中计算;
3.也可以在检索后的基础上使用ACWT中的Z值计算公式。
首先,谢谢armstrong提供的建议. 不过我还有一些疑问,陈述如下:
第一种方法, 虽然经过INDEX可以得出Z,MI,MI3,LL值,但是并不能知道搭配词的词性.比如: waste, 它既可以作名词又可以作动词,而我想知道的是与AVOID搭配的所有名词显著搭配词. 这样的话,这些搭配词的Z值等统计值没有多大意义.
第二种方法, 也存在着第一种方法同样的问题,另外工作量太大,不现实.
第三种方法, 存在以上两种方法的问题.
欢迎讨论!
armstrong
2006-10-01, 11:15 AM
用第一种方法时,如果需要的分清检索词的词性,就将语料进行词性标注就可以了,得出的搭配词就可显示词性了的。
hancunxin
2006-10-01, 03:01 PM
用第一种方法时,如果需要的分清检索词的词性,就将语料进行词性标注就可以了,得出的搭配词就可显示词性了的。
是的,armstrong,您说的方法我也曾想过。这也可能是唯一的方法。但是,对学习者语料库CLEC进行词性标注,至今我认为有一个问题没有解决。那就是,给一个充满错误的学习者语料库标注,标注的正确率可以有多高,那些数据是否可以作为你研究的依据? :confused:
armstrong
2006-10-01, 03:24 PM
这的确是个问题,但是还是应该保持语料的真实性的.
桂诗春教授在于2002年的时候已经将clec标注过,并且在此基础上进行基于词性的词频统计,然后和lob,brown库比较.
这里恐怕涉及一个标注软件的统一问题,即可比性的问题.
vBulletin® v3.7.4,版权所有 ©2000-2009,Jelsoft Enterprises Ltd.