CLEC and COLSEC by wzli

xujiajin

管理员
Staff member
一点回顾
CLEC从1996年开始着手,1999年初成,真正整理完工在2001年左右。大约有7、8所高校、几十人参加,从抽样、手工输入、校对、附码到最后集成,工作机械而繁重,且基本属于义务劳动,其中甘苦不足为外人道。这个课题虽说是国家课题,经费也就万把元,别说劳务费,连课题组开会研讨,都是自掏腰包。
COLSEC从2000年开始,2003年年底完工,附码工作量比CLEC少,但转写工作量极大。主要参加的有三个单位,50~60人参与。课题经费比上一个多了点,但光一个CAST软件开发投入就超出了总课题经费的近一倍。不过多亏卫乃兴教授多方筹措,劳务报酬稍有表示。参加这两个课题的大多是在读的硕士博士研究生,他们不计报酬,认真工作,最后大部分人连名字都可能不会被提起,对这种辛勤工作和默默奉献我们应该表示感谢。国内搞语料库开发周期短一点,不像COBUILD那样动辄十几年,一是库体小,再就是人力资源充沛,成本低,这是我们的优势;三就是得益于计算机技术进步,存储手段丰富,处理速度快,不像以前那样还要使用磁带机。
对语料库使用者而言,语料库与软件一般是分离的,但只要有文本库就可以开展工作了,我个人的看法是,干净的文本可能比标注过的更开放灵活,用处也更大。据我所知,上面提到的两个语料库光盘都是随书赠送的,其成本并未计入。我们当时的想法是,近可能实现资源共享,而不是做成商业的东西,这样才能激发研究的规模。但是由于各种限制和原因,有些东西做出来了,不尽人意的地方仍然很多,这也是事实。就目前而言,我们大伙都加把劲,多出成果,出好成果,把这个学科做大做强,这样以后不管谁申请类似课题,也能像理工科那样拿到几十甚至上百万经费,吸取以往的经验和教训,出的活会更精细,规模也会更大。对那些愿意与大家分享自己资源的,对他们的辛劳我们应表示欢迎和感谢。
一个语料库做好后,把相关的documentation及研究成果尽快整理发表,是个好事。这方面我们有过教训。像JDEST早在上个世纪八十年代中期就建成了,属于国际第一代语料库,但后续研究没跟上,错过了极好的时机,否则国内语料库研究今天这个局面可以提前10年出现,这是很可惜的。当然批评和反思也是必需的,尤其是对语料库研究的健康发展大有好处。

[本贴已被 作者 于 2005年11月10日 22时05分17秒 编辑过]
 
谢谢xujiajin把这个贴到这来。
有个打错的地方:COLEC应为COLSEC, 意为:College Learner Spoken English Corpus。
 
Back
顶部