菜鸟问题-运用antconc提取词语常用搭配及统计分析

各位老师好!我是正在写汉语词语搭配相关论文的硕士,刚刚接触语料库语言学,深感这门科学对语言研究的巨大作用,可是我之前一直没有 学习过相关内容,最近看论坛自己摸索,得到很多帮助!非常感谢!但是,还是有问题……。真的是什么都不懂,希望老师们能看到我的问题并回答,感激不尽!

1. 要用antconc研究某个词的高频搭配,我应该用cluster还是collocates?大部分的搭配词都不是直接出现在目标词的两侧,可能隔好几个,那么 cluster size或者window span 我应该选多少合适?

2. 上面一个问题提取了搭配词以后,应该用人工筛选过滤掉不符合的词对吗,那频率和MI值有没有改变呢?原来包括非搭配的词的时候的数据应该不能用了吧?怎么重新计算剩下的搭配词的频率和MI值呢?或者用Excel算么==。还是过滤掉那些词的语料后重新生成一个文本再去antconc分析?

3. 我要研究某一类词的常用搭配,这样国家语委语料库是经过分词处理的可以直接用antconc,可是规模有点小。CCL语料库大,可是没有分词,得用分词软件(不一定分得好),还有lancaster我不熟悉,老师们建议哪个更合适呢?

4. 我看软件提取搭配存在误差,其实我的语料不是很巨大,要研究的词有120个左右,所以或者我直接人工先鉴别每个词常用搭配,再用excel或antconc算出MI值或T值来排一下常用度??

.我的学校没有这方面课程,也不聪明:(所以才有这些笨问题,比较啰嗦。谢谢老师们了!
 
Last edited:
回复: 菜鸟问题-运用antconc提取词语常用搭配及统计分析

找不到编辑了。看了杨惠中老师的书,有了一点理解。发现了新的问题:北大的CCL语料库因为没有分词,所以就没有办法知道词容是吗?网上的只有只有字数。
 
顶部