桂诗春教授有一篇文章叫《中国学习者英语介词使用概述》(见《基于CLEC语料库的中国学习者英语分析》一书P266),其中选取了in,by,for三个介词做个案研究,比较它们在FLOB和CLEC两个语料库中的搭配词异同。以in为例,桂教授给出了一张表,见附件。
我的疑问是这个表里所谓的“按用途区分的in后置搭配词”具体是怎么检索出来的?CLEC除了错误标注之外并没有其他标注,那如何做到对各后置搭配词的意义的区分呢?就是比如怎么得出表示“地方、位置”意义的后置搭配词有多少个?
晕,那工作量岂不是很大?而且人工统计和赋码的可信度高么?如果我们“平民百姓”也这么操作的话,会被质疑吗?应该是人工统计和赋码相结合得到到
呵呵 桂老师同样是平民百姓晕,那工作量岂不是很大?而且人工统计和赋码的可信度高么?如果我们“平民百姓”也这么操作的话,会被质疑吗?
晕,那工作量岂不是很大?而且人工统计和赋码的可信度高么?如果我们“平民百姓”也这么操作的话,会被质疑吗?
具体他们是怎么做的,我也不清楚。但是一般来说,应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类,然后需要人工校对一下。