[乱弹] 语料库技术讨论

ineedgerf

普通会员
前两天看了出版社寄来的 SWECCL 语料库,看了以后不禁失望。
三张光盘,其中两张多的内容是声音,而文本的内容约 78mb。当然,这已经很不容易了。我本人的体会也很深。
就说这 78mb 的文本,除了raw data之外,标注文本的内容随便引用几行 [WECCL\Tagged Data\Narration\A1147ND.CLS:1-6] :
<s>
<WCOMP> <NAR> <GRADE1> <YR03> <TIMED> <SCORE?> <LENGTH362W> Join <VV0> Us <PPIO2> ! <!>
</s>
<s>
It <PPH1> is <VBZ> know <VV0> by <II> all <DB> that <DD1> Senior <JJ> 3 <MC> is <VBZ> rather <RG> tiring <JJ> and <CC> boring <JJ> . <.>
</s>
仔细看看,叫人哭笑不得。
这是什么技术?让人们如何查询?查询软件在哪里?
如何建立语料库?如何使用语料库?这些问题不应该早就提出来吗?
本人在做课件的时候,首先想到的是怎么方便老师的使用,怎么让老师有效的使用课件资源、本地资源和网络资源。不应该吗?
目前,“文本的堆积”已经很容易了,一夜间可以堆出两个 BNC 来,三夜间可以标注两个 BNC 来……但是然后使用这些有用的资源?
我建议对这些问题来个讨论,应该说是“越论越明”,“明”了,再做,不迟。
讨论:语料库的技术和语料库的应用开发
====
我不是想批评一个伟大的作品,我是想让大家来关心两个问题:
一、语料库的技术问题;
二、语料库的应用问题;
这两个问题其实是一个:应用,因为技术涉及到应用软件的开发。
光盘上的tools目录有两个工具,一个播放光盘上这种独特音频格式的插件,一个是ConCapp。而实际应用中的查询要复杂得多。对于多数人来讲,转换并不是件容易的事情。
再说这些1.5G的声音和文本有什么关系呢?还是一种堆积。
我早就想过建立多媒体语料库,但是力量单薄,不敢前进。


[本贴已被 作者 于 2005年11月07日 19时03分57秒 编辑过]
 
技术确实是一个问题。在一些会议上得知,国内一些语料库的标注还停留在BROWN时代,而现在的计算机技术已经发展到了很成熟的标记语言的时代了。标记语言对语料库来讲是再合适不过的了。XML的诞生不仅对数据交换是一个革命,而且对语料库的标注也是一个革命。
国内已经出版的语料库弥补了一些“零”,但是语料库的开发利用还停留在“零”,虽然这个说法过分,但是一个问题。只出版文本的东西,而没有查询软件,都等于是浪费。

[本贴已被 作者 于 2005年11月07日 16时50分30秒 编辑过]
 
不是有一个tools文件夹吗?里面有工具的。
使用说明不是在使用手册上吗?
 
我刚刚向学校教材科递交了征订单,但看到上面1楼的评价,又担心起来。SWECCL到底怎样,是否值得一买?

[本贴已被 作者 于 2005年11月07日 17时21分51秒 编辑过]
 
语料库标注最好当然用XML或SGML,尤其是涉及到error和POS等不同类型标注的学习者语料库。Header 和body也应分别标注。

但就1楼所示的样例来看,标注转换并不难。即使不转换,用Wordsmith (Settings - Adjust settings - Tags & Markup - Only if containing) 也同样可以同时查询metadata和文本内容。
 
没有见到这个语料库,还在期待中,因为想看看编者是究竟怎样处理影音文件和标注文件的有机结合,以及如何做到搜索结果的多模态链接。不过从一楼的描述看来两张皮的可能性比较大。
 
这里还有一个不错的检索软件可供下载:
http://panda.nhce.edu.cn/corpus4u/tools/concord/scp.rar

其实免费而又好用的软件还是很容易找到的。SWECCL可我们提供的语料才是最为难得的,特别是口语语料。
 
暑假的时候查了很多文章,得知国内公开发行的语料库就一个CLEC,于是想方设法买来了,但是后来偌大一本书全是一些表格数据,很是晕,后来对于SWECCL就一直处于观望了!
 
其实本人觉得编者提供那些表格数据倒是煞费苦心,很不容易,值得用得上的人感谢。但是从用户的角度来讲那些表格徒占纸张,未必是对大多数人有用,读书人更不情愿把有限的资金投入到那些枯燥的数字上了。大多数用户都是想亲手挖出自己感兴趣的数据,因此语料库本身的细致、缜密才最重要。可惜,有些语料库设计者并未着力于此,而是急于SHOW自己的结果......而且只是一些Slave Workers的统计.....
 
laohong的说法某种程度上是对的:有些语料库设计者并未着力于此,而是急于SHOW自己的结果。

第一个语料库诞生在交大,而它的面目对多数人来讲可能是个谜;CLEC从建到出版也有5前左右的功夫;交大的另一个COLSEC也建立了几个年头了……

而有些人实力是否强很多呢?还是“急于SHOW自己的结果”?

假如是后者,我想我们的学术界也该反思一下了……
 
一点回顾

一点回顾
CLEC从1996年开始着手,1999年初成,真正整理完工在2001年左右。大约有7、8所高校、几十人参加,从抽样、手工输入、校对、附码到最后集成,工作机械而繁重,且基本属于义务劳动,其中甘苦不足为外人道。这个课题虽说是国家课题,经费也就万把元,别说劳务费,连课题组开会研讨,都是自掏腰包。
COLSEC从2000年开始,2003年年底完工,附码工作量比CLEC少,但转写工作量极大。主要参加的有三个单位,50~60人参与。课题经费比上一个多了点,但光一个CAST软件开发投入就超出了总课题经费的近一倍。不过多亏卫乃兴教授多方筹措,劳务报酬稍有表示。参加这两个课题的大多是在读的硕士博士研究生,他们不计报酬,认真工作,最后大部分人连名字都可能不会被提起,对这种辛勤工作和默默奉献我们应该表示感谢。国内搞语料库开发周期短一点,不像COBUILD那样动辄十几年,一是库体小,再就是人力资源充沛,成本低,这是我们的优势;三就是得益于计算机技术进步,存储手段丰富,处理速度快,不像以前那样还要使用磁带机。
对语料库使用者而言,语料库与软件一般是分离的,但只要有文本库就可以开展工作了,我个人的看法是,干净的文本可能比标注过的更开放灵活,用处也更大。据我所知,上面提到的两个语料库光盘都是随书赠送的,其成本并未计入。我们当时的想法是,近可能实现资源共享,而不是做成商业的东西,这样才能激发研究的规模。但是由于各种限制和原因,有些东西做出来了,不尽人意的地方仍然很多,这也是事实。就目前而言,我们大伙都加把劲,多出成果,出好成果,把这个学科做大做强,这样以后不管谁申请类似课题,也能像理工科那样拿到几十甚至上百万经费,吸取以往的经验和教训,出的活会更精细,规模也会更大。对那些愿意与大家分享自己资源的,对他们的辛劳我们应表示欢迎和感谢。
一个语料库做好后,把相关的documentation及研究成果尽快整理发表,是个好事。这方面我们有过教训。像JDEST早在上个世纪八十年代中期就建成了,属于国际第一代语料库,但后续研究没跟上,错过了极好的时机,否则国内语料库研究今天这个局面可以提前10年出现,这是很可惜的。当然批评和反思也是必需的,尤其是对语料库研究的健康发展大有好处。

[本贴已被 作者 于 2005年11月10日 22时07分55秒 编辑过]
 
李老师在你们出的与语料库语言学研究中看到了CAST的大概样子,有没有在线检索的地方能够使用一下这个软件。第二,不知道什么时候能够看到COLEC出版,准备在哪家出版社出版?谢谢!
 
回复:[乱弹] 语料库技术讨论

Colsec的documentation及初步研究,附赠光盘已经交上外出版社出版,这会儿该出来了吧。
CAST在线版演示可在http://corpus.sjtu.edu.cn/DDL/INDEX.HTM 中corpus online search找到。但这个检索系统用的是另外一个服务器,可能经常关闭。
 
原来国家级课题的经费也这么少,真是太可怜了。看来语料库研究课题应该到自然科学领域申请才行。
 
回复:[乱弹] 语料库技术讨论

以下是引用 laohong2005-11-8 13:58:14 的发言:
其实本人觉得编者提供那些表格数据倒是煞费苦心,很不容易,值得用得上的人感谢。但是从用户的角度来讲那些表格徒占纸张,未必是对大多数人有用,读书人更不情愿把有限的资金投入到那些枯燥的数字上了。大多数用户都是想亲手挖出自己感兴趣的数据,因此语料库本身的细致、缜密才最重要。可惜,有些语料库设计者并未着力于此,而是急于SHOW自己的结果......而且只是一些Slave Workers的统计.....

顶!!!
 
很抱歉我们的SWECCL让很多人失望了,尽管我知道任何人建的学习者语料库都不能satisfy everyone。就检索软件,想作以下说明。

如WZLI所言,用于建库的基金杯水车薪,用来做检索软件太可惜了。能做出比Wordsmith更好的软件吗?如果那么容易,国际语料库语言学界为什么要用它?见过ICLE吗?他们的检索软件又如何呢?
我们的想法是把有限的钱用到语音转写和转写的校对上。毕竟,语音转写太花费人力物力了;几年前我们从一堆堆堆满灰尘的磁带中抽样,花了若干个周末,常常是不计报酬的,凭借的是一种热情和冲动,一天下来,鼻孔里全是灰尘。既然我们做不出比Wordsmith更好的,不如别做了,否则做个浑身是毛病的检索工具,可能招来的评论更多。

[本贴已被 作者 于 2005年12月15日 11时44分25秒 编辑过]
 
有个想法,不知道能不能借鉴软件领域的开发开源软件的精神,比如Linux, phpbb等以及一系列的很强大的软件及程序,他们都是全世界很多热心的人自愿的一点一点建设起来的,虽然大家各在一方,也不计报酬,但是最后做出来的东西往往具有很高的水平。所以我想,在语料库软件开发与语料库本身的建设上,我们是不是可以借鉴一下开源社区的做法呢?
 
回复:[乱弹] 语料库技术讨论

以下是引用 frankliang2005-12-15 11:39:33 的发言:
很抱歉我们的SWECCL让很多人失望了,尽管我知道任何人建的学习者语料库都不能satisfy everyone。就检索软件,想作以下说明。

如WZLI所言,用于建库的基金杯水车薪,用来做检索软件太可惜了。能做出比Wordsmith更好的软件吗?如果那么容易,国际语料库语言学界为什么要用它?见过ICLE吗?他们的检索软件又如何呢?
我们的想法是把有限的钱用到语音转写和转写的校对上。毕竟,语音转写太花费人力物力了;几年前我们从一堆堆堆满灰尘的磁带中抽样,花了若干个周末,常常是不计报酬的,凭借的是一种热情和冲动,一天下来,鼻孔里全是灰尘。既然我们做不出比Wordsmith更好的,不如别做了,否则做个浑身是毛病的检索工具,可能招来的评论更多。

[本贴已被 作者 于 2005年12月15日 11时44分25秒 编辑过]

这应该成为“理由”吗?得罪
 
回复:[乱弹] 语料库技术讨论

个人觉得之所以造成这种局面,我觉得不是国内没有这种技术,而是因为掌握技术的人不懂得语料库,也就是说即使是我们开放了一个软件的源码, 我想结果还是一样,而且掌握语料库的专家和学者又实在是太忙了, 因此想要改变这个现状,就是语料库研究的普及化,和把更多的掌握计算机编程技术的人拉到这个研究领域来.
 
Back
顶部