原创《语料库工程的15个常见环节:切勿轻视》

李亮1975重庆

语料库快乐军政委
原创《语料库工程的15个常见环节:切勿轻视》
(作者:李亮 )
(日期:2012年4月5日)

(1) 语料规划:调研其他语料库的建设经验教训与规范之后,进行人力财力物力的规划;
(2) 语料验证:对语料的结构合理性与来源合法性与规模合理性进行专家论证或同行论证;
(3) 语料可行:对人力物力财力的调用与投入进行评测,确保持续稳定投入直至竣工;
(4) 语料搜集:把网页等电子形式的语料下载到硬盘,或把纸质资料按照规划进行购买;
(5) 语料转换:把电子图片格式或网页格式的语料转换为txt格式或把图片格式的文字进行识别;
(6) 语料核查:组织专人或开发专门工具进行语料质量评价,确保低错误率和随后的补救操作;
(7) 语料整理:根据实际情况,放弃某些语料或补充某些语料或重新定位某些语料的性质;
(8) 语料开发:针对人工操作的低效率环节,针对整个项目的优质高效而进行小工具开发;
(9) 语料培训:加工制作人员都需要接受足够的技术培训,包括软件操作和如何做好操作日志;
(10) 语料标注:自动标注与半自动标注与人工标注相结合,尤其要做好半自动标注的开发;
(11) 语料检索:借助语料检索软件或其他文本搜索工具;
(12) 语料统计:描述性统计或推断性统计,借助语料库软件或通用统计工具;
(13) 语料分析:对检索结果或统计数据进行理论提升与规律概括;
(14) 语料发表:发表相关论文或举办专题研讨会;
(15) 语料发布:以光盘形式或网站形式或专著形式,实现部分或全部的公开。

【备注】
(1)以上环节都可以尽可能多地开发有针对性的小工具,哪怕是“语料规划”也可以制作图形化和菜单化的“半自动决策辅助与规划书生成的小工具”,以便让语料规划环节就尽可能详细而可行;
(2)操作者在每个环节都要注意保存不同的语料库版本,避免出现软硬件故障或操作失误而无法返回过去的某个语料状态;
(3)宽带互联网时代,同一个文学作品往往有多个电子版制作者,也有很多个网站提供“大同小异”与“良莠不齐”的电子版,语料规划者与搜集者都要警惕其中的陷阱;
(4)半自动化,是最值得软件开发的领域,含义非常广泛,也渗透到以上的全部15个环节之中,例如开发一个快速定位乱码的小工具就能大大节省操作者的精力;
(5)语料检索工具很少携带后台数据库,虽然可以加载自定义的词表,但是亟需与词性分析标注工具和句法分析标注工具进行后台的无缝集成,进而能大大降低对操作者的IT素质的要求,也能大大提升语料分析的“幸福感成就感”,当代的语料库语言学及其主流工具依然处于“遍地开花且迅速普及的初级阶段,还有巨大而持续的发展空间”。
 
Last edited:
回复: 原创《语料库工程的15个常见环节:切勿轻视》

Cheerio Marvellous... You're No Longer Awesome - Watch Lancaster research Robbie Love being interviewed on Sky News:
 
Back
顶部