桂教授的这个表是怎么统计出来的?

#1
桂诗春教授有一篇文章叫《中国学习者英语介词使用概述》(见《基于CLEC语料库的中国学习者英语分析》一书P266),其中选取了in,by,for三个介词做个案研究,比较它们在FLOB和CLEC两个语料库中的搭配词异同。以in为例,桂教授给出了一张表,见附件。
我的疑问是这个表里所谓的“按用途区分的in后置搭配词”具体是怎么检索出来的?CLEC除了错误标注之外并没有其他标注,那如何做到对各后置搭配词的意义的区分呢?就是比如怎么得出表示“地方、位置”意义的后置搭配词有多少个?
 

附件

williamJia

开放语料库项目
#2
回复: 桂教授的这个表是怎么统计出来的?

桂诗春教授有一篇文章叫《中国学习者英语介词使用概述》(见《基于CLEC语料库的中国学习者英语分析》一书P266),其中选取了in,by,for三个介词做个案研究,比较它们在FLOB和CLEC两个语料库中的搭配词异同。以in为例,桂教授给出了一张表,见附件。
我的疑问是这个表里所谓的“按用途区分的in后置搭配词”具体是怎么检索出来的?CLEC除了错误标注之外并没有其他标注,那如何做到对各后置搭配词的意义的区分呢?就是比如怎么得出表示“地方、位置”意义的后置搭配词有多少个?
具体他们是怎么做的,我也不清楚。但是一般来说,应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类,然后需要人工校对一下。
 
Last edited:

xusun575

高级会员
#8
回复: 桂教授的这个表是怎么统计出来的?

晕,那工作量岂不是很大?而且人工统计和赋码的可信度高么?如果我们“平民百姓”也这么操作的话,会被质疑吗?
俺又要得罪人啦:cool:。读此跟帖,俺心里拔凉拔凉的。不论是VIP还是WIP,or嘛个P,质疑是正常的,不被质疑是极不正常。愿民主之风来得更猛烈吧!;)
 
#9
回复: 桂教授的这个表是怎么统计出来的?

具体他们是怎么做的,我也不清楚。但是一般来说,应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类,然后需要人工校对一下。
Bingo


据说当年广外英文学院的大部分教师都有所涉及这个项目。 所以涉及的人工量是很大的。

语料库的建设不仅仅是资金的问题, 能够征集到足够的合格人力也是一个难题。
 

itscgui

初级会员
#10
回复: 桂教授的这个表是怎么统计出来的?

这几个按用途来区分的介词表的具体做法是

(1)先用Wordsmith的Concord把想分类的介词全部检索出来,存为另一个文件;
(2)在Word里把用途(基本上按West的General Service List)的赋码列出候用;
(3)在Word里调出文件,然后用人工根据其上下文判断其类别,再按赋码键,将赋码安排在每一个介词后面,存为另一个文件;
(4)用Wordsmith的Concord检索出每一个赋码的频数。

这样做是比较花功夫的,原来我们是编制了一个赋码器的,后来是李文中教授发现用Word同样也可以赋码,而且简单易用。CLEC 的所有语言失误的赋码都是用这个方法做出来的。凡是参加过这个工作的都知道其艰苦。因为这样的工作不可能由一个人来完成,必须用团队来进行,但是多个人来赋码,又出现赋码不容易取得一致,出现consistency的问题,有些错误往往可以从不同的角度来赋码的。
桂诗春
 
顶部