CLEC and COLSEC by wzli

xujiajin · 2005-11-10

一点回顾
CLEC从1996年开始着手，1999年初成，真正整理完工在2001年左右。大约有7、8所高校、几十人参加，从抽样、手工输入、校对、附码到最后集成，工作机械而繁重，且基本属于义务劳动，其中甘苦不足为外人道。这个课题虽说是国家课题，经费也就万把元，别说劳务费，连课题组开会研讨，都是自掏腰包。
COLSEC从2000年开始，2003年年底完工，附码工作量比CLEC少，但转写工作量极大。主要参加的有三个单位，50～60人参与。课题经费比上一个多了点，但光一个CAST软件开发投入就超出了总课题经费的近一倍。不过多亏卫乃兴教授多方筹措，劳务报酬稍有表示。参加这两个课题的大多是在读的硕士博士研究生，他们不计报酬，认真工作，最后大部分人连名字都可能不会被提起，对这种辛勤工作和默默奉献我们应该表示感谢。国内搞语料库开发周期短一点，不像COBUILD那样动辄十几年，一是库体小，再就是人力资源充沛，成本低，这是我们的优势；三就是得益于计算机技术进步，存储手段丰富，处理速度快，不像以前那样还要使用磁带机。
对语料库使用者而言，语料库与软件一般是分离的，但只要有文本库就可以开展工作了，我个人的看法是，干净的文本可能比标注过的更开放灵活，用处也更大。据我所知，上面提到的两个语料库光盘都是随书赠送的，其成本并未计入。我们当时的想法是，近可能实现资源共享，而不是做成商业的东西，这样才能激发研究的规模。但是由于各种限制和原因，有些东西做出来了，不尽人意的地方仍然很多，这也是事实。就目前而言，我们大伙都加把劲，多出成果，出好成果，把这个学科做大做强，这样以后不管谁申请类似课题，也能像理工科那样拿到几十甚至上百万经费，吸取以往的经验和教训，出的活会更精细，规模也会更大。对那些愿意与大家分享自己资源的，对他们的辛劳我们应表示欢迎和感谢。
一个语料库做好后，把相关的documentation及研究成果尽快整理发表，是个好事。这方面我们有过教训。像JDEST早在上个世纪八十年代中期就建成了，属于国际第一代语料库，但后续研究没跟上，错过了极好的时机，否则国内语料库研究今天这个局面可以提前10年出现，这是很可惜的。当然批评和反思也是必需的，尤其是对语料库研究的健康发展大有好处。

[本贴已被作者于 2005年11月10日 22时05分17秒编辑过]

wzli · 2005-11-10

谢谢xujiajin把这个贴到这来。
有个打错的地方：COLEC应为COLSEC, 意为：College Learner Spoken English Corpus。

xujiajin · 2005-11-11

致敬！

lngzlz · 2005-11-12

肺腑之言，晚生佩服！

CLEC and COLSEC by wzli

xujiajin

管理员

wzli

普通会员

xujiajin

管理员

lngzlz

普通会员