• 发垃圾贴的禁不掉,只能关闭论坛注册。想要注册账户的C友,请每月初发邮件到 aihaiyang at gmail dot com,我手动帮你创建。

发布一个基于CLAWS4的多核并发语料库批量标注软件

#1
软件介绍:
能够基于著名的语料库标注软件CLAWS4进行批量的并发标注;能够自动修复原软件的部分错误;能够以多种标注形式存储,能够简化许多操作,普通电脑几分钟对齐数百万词没什么问题。

使用说明:
一、按原CLAWS安装说明安装好Java运行库及CLAWS文件夹,并把WinClawsGUI.exe放到winclaws.exe所有目录;

二、双击WinClawsGUI运行,在界面中点“…”选取语料库文件目录,选择所有语料文本文件的编码(可选GB2312默认编码,或者UTF-8);
三、界面中会显示所有等待标注的语料;点击“开始标注”进行语料标注;此时系统会运用并行处理技术多线程对语料文件进行标注;标注速度取决于计算机CPU的核数及内存大小;标注结束后,会有提示;未注册版本每次仅能标注5份语料,且对语料大小有限制;

四、结束后会产生标注中间结果。目的用于人工查看语料标注情况,对应三个目录:
tmp是语料库准备文件存放目录:里面所有的文档被加入标记信息,并替换其中影响标注的<>为();
tagged是标注的结果存放目录:其中标注结果以原文件名命名;标注过程附属信息以原文件名.supp结尾,可用文本文件打开。.supp文件是查看标注是否有错的关键文件,如果其内容仅为标记信息,则为完整无错标注;如果有个别长单词,也可认为是无错标注(因在后面整理结果功能中,系统会自动查找长单词,并智能纠错);对于出现句子或大幅文本时,说明标注有失败。
err是标注过程产生的信息。错误信息以原文件名命名,其记录了标注过程中所有产生的警告及错误,对于.supp文件中出现的标注失败情况,在err文件夹中相应文件名的记录中都会完整体现。

五、整理标注结果。该功能分为两种模式,一种是无错模式,另一种是允许一定的标注错误率,错误率的计算方法是:.supp中余下未标注的文本长度/原始未标注语料文本长度*100%。两种方式实现的流程为:按照原始未标注文件,查找.supp文件后,1)如果.supp文件除标识标记外无任何未标注内容,或者纠错后无任何标注内容,则认为是完全成功标注;2)如果.supp文件在纠错后依然有未标注内容,则计算标注错误率。按照选择的模式,对标注中间过程产生的结果进行最终归并处理,产生“已标注”和“标注失败”两个文件夹。
六、句子模式功能。原系统标注出来的是竖型模式,在软件中我开发了段落及句子模式,点击“转换为句子”会自动创建文件夹“句子形式”,然后进行批量转换,并添加段落与句子信息;当选择“全部词性”后,会列出词的所有可能,并附上百分比,去除选择“全部词性”后,仅列出最大可能的词性;

一点小建议:对“标注失败”的文件进行人工检查,检查重点是:1)文件编码是否一致或正常;2)文件内容不得有乱码,过多的特殊字符;3)过长的单词个数是否过多。去除这几个问题,经几十次试验测试,一般标注都没有错误。

论坛不支持贴图,也不支持
如果有需要使用CLAWS4进行语料标注的,或者使用斯坦福标注器进行语料标注的,可以加入QQ群:461241012,需要定制啥的,直接联系我:
QQ:363954866
E-mail:li_bopr@126.com
 
顶部