桂教授的这个表是怎么统计出来的？

carriecai · 2009-09-27

桂诗春教授有一篇文章叫《中国学习者英语介词使用概述》（见《基于CLEC语料库的中国学习者英语分析》一书P266），其中选取了in，by，for三个介词做个案研究，比较它们在FLOB和CLEC两个语料库中的搭配词异同。以in为例，桂教授给出了一张表，见附件。
我的疑问是这个表里所谓的“按用途区分的in后置搭配词”具体是怎么检索出来的？CLEC除了错误标注之外并没有其他标注，那如何做到对各后置搭配词的意义的区分呢？就是比如怎么得出表示“地方、位置”意义的后置搭配词有多少个？

williamJia · 2009-09-27

回复: 桂教授的这个表是怎么统计出来的？

作者 carriecai:
桂诗春教授有一篇文章叫《中国学习者英语介词使用概述》（见《基于CLEC语料库的中国学习者英语分析》一书P266），其中选取了in，by，for三个介词做个案研究，比较它们在FLOB和CLEC两个语料库中的搭配词异同。以in为例，桂教授给出了一张表，见附件。
我的疑问是这个表里所谓的“按用途区分的in后置搭配词”具体是怎么检索出来的？CLEC除了错误标注之外并没有其他标注，那如何做到对各后置搭配词的意义的区分呢？就是比如怎么得出表示“地方、位置”意义的后置搭配词有多少个？

具体他们是怎么做的，我也不清楚。但是一般来说，应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类，然后需要人工校对一下。

carriecai · 2009-09-27

回复: 桂教授的这个表是怎么统计出来的？

作者 williamJia:
应该是人工统计和赋码相结合得到到

晕，那工作量岂不是很大？而且人工统计和赋码的可信度高么？如果我们“平民百姓”也这么操作的话，会被质疑吗？

ArthurW · 2009-09-27

回复: 桂教授的这个表是怎么统计出来的？

作者 carriecai:
晕，那工作量岂不是很大？而且人工统计和赋码的可信度高么？如果我们“平民百姓”也这么操作的话，会被质疑吗？

呵呵桂老师同样是平民百姓

hancunxin · 2009-09-27

回复: 桂教授的这个表是怎么统计出来的？

我觉得是人工统计的。

carriecai · 2009-09-27

回复: 桂教授的这个表是怎么统计出来的？

作者 ArthurW:
呵呵桂老师同样是平民百姓

偶这个“平民百姓”加了引号的哇，像他们都属于VIP一级的嘛。

清风出袖 · 2009-09-28

回复: 桂教授的这个表是怎么统计出来的？

可以去信问下桂老师

xusun575 · 2009-09-28

回复: 桂教授的这个表是怎么统计出来的？

作者 carriecai:
晕，那工作量岂不是很大？而且人工统计和赋码的可信度高么？如果我们“平民百姓”也这么操作的话，会被质疑吗？

俺又要得罪人啦

。读此跟帖，俺心里拔凉拔凉的。不论是VIP还是WIP,or嘛个P，质疑是正常的，不被质疑是极不正常。愿民主之风来得更猛烈吧！

uqcaven · 2009-10-01

回复: 桂教授的这个表是怎么统计出来的？

作者 williamJia:
具体他们是怎么做的，我也不清楚。但是一般来说，应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类，然后需要人工校对一下。

Bingo

据说当年广外英文学院的大部分教师都有所涉及这个项目。所以涉及的人工量是很大的。

语料库的建设不仅仅是资金的问题，能够征集到足够的合格人力也是一个难题。

itscgui · 2010-07-14

回复: 桂教授的这个表是怎么统计出来的？

这几个按用途来区分的介词表的具体做法是

（1）先用Wordsmith的Concord把想分类的介词全部检索出来，存为另一个文件；
（2）在Word里把用途（基本上按West的General Service List）的赋码列出候用；
（3）在Word里调出文件，然后用人工根据其上下文判断其类别，再按赋码键，将赋码安排在每一个介词后面，存为另一个文件；
（4）用Wordsmith的Concord检索出每一个赋码的频数。

这样做是比较花功夫的，原来我们是编制了一个赋码器的，后来是李文中教授发现用Word同样也可以赋码，而且简单易用。CLEC 的所有语言失误的赋码都是用这个方法做出来的。凡是参加过这个工作的都知道其艰苦。因为这样的工作不可能由一个人来完成，必须用团队来进行，但是多个人来赋码，又出现赋码不容易取得一致，出现consistency的问题，有些错误往往可以从不同的角度来赋码的。
桂诗春

seanxpq · 2010-07-14

回复: 桂教授的这个表是怎么统计出来的？

谢谢桂老师的详细解释！

zhangbc · 2010-07-14

回复: 桂教授的这个表是怎么统计出来的？

谢谢桂教授的赐教！

桂教授的这个表是怎么统计出来的？

carriecai

附件

williamJia

开放语料库项目

carriecai

ArthurW

hancunxin

Moderator

carriecai

清风出袖

高级会员

xusun575

高级会员

uqcaven

itscgui

初级会员

seanxpq

corpus explorer

zhangbc