菜鸟问题-运用antconc提取词语常用搭配及统计分析

Bellazhou · 2013-10-22

各位老师好！我是正在写汉语词语搭配相关论文的硕士，刚刚接触语料库语言学，深感这门科学对语言研究的巨大作用，可是我之前一直没有学习过相关内容，最近看论坛自己摸索，得到很多帮助！非常感谢！但是，还是有问题……。真的是什么都不懂，希望老师们能看到我的问题并回答，感激不尽！

1. 要用antconc研究某个词的高频搭配，我应该用cluster还是collocates？大部分的搭配词都不是直接出现在目标词的两侧，可能隔好几个，那么 cluster size或者window span 我应该选多少合适？

2. 上面一个问题提取了搭配词以后，应该用人工筛选过滤掉不符合的词对吗，那频率和MI值有没有改变呢？原来包括非搭配的词的时候的数据应该不能用了吧？怎么重新计算剩下的搭配词的频率和MI值呢？或者用Excel算么==。还是过滤掉那些词的语料后重新生成一个文本再去antconc分析？

3. 我要研究某一类词的常用搭配，这样国家语委语料库是经过分词处理的可以直接用antconc，可是规模有点小。CCL语料库大，可是没有分词，得用分词软件（不一定分得好），还有lancaster我不熟悉，老师们建议哪个更合适呢？

4. 我看软件提取搭配存在误差，其实我的语料不是很巨大，要研究的词有120个左右，所以或者我直接人工先鉴别每个词常用搭配，再用excel或antconc算出MI值或T值来排一下常用度？？

.我的学校没有这方面课程，也不聪明

所以才有这些笨问题，比较啰嗦。谢谢老师们了！

Bellazhou · 2013-10-24

回复: 菜鸟问题-运用antconc提取词语常用搭配及统计分析

找不到编辑了。看了杨惠中老师的书，有了一点理解。发现了新的问题：北大的CCL语料库因为没有分词，所以就没有办法知道词容是吗？网上的只有只有字数。

菜鸟问题-运用antconc提取词语常用搭配及统计分析

Bellazhou

Bellazhou