在最近的分析中发现,WECCL的说明书中给出的语料赋码并不全,一些由多个单词组成的结构采用了数字序列编码,但在说明书中没有注明,我把今天发现的部分摘录出来,待到全面分析完成后,再把全部未给出的代码发到论坛上。
<CS21> <CS22>
二词连词
<CS31> <CS32> <CS33>
三词连词
<DA2>
名词前限定词
例如:
MANY
SEVERAL
<II21> <II22>
双词介词
例如:
<II31> <II32> <II33>
三词介词
例如:
AS WELL AS
IN TOUCH WITH
IN...
回复: 发一个本人自己编写的WECCL分析软件
今天带来了一些新的进展,错误代码分析,昨天晚上刚开发出的新功能。前续字段为原文本中的错误,前续1为改正后的结果。四张图依次为拼写错误检索,句法错误检索,其它错误检索1和2.
oscar 兄说得很有道理,这个软件是针对WECCL及其赋码开发的专用软件,不可能做到能应用在所有的语料库上,相信以后的语料库建设会朝标准化的方向发展,到那时候再写软件就容易了。开发这个软件时的一个主要的想法就是把分析做细,这也一定程度上对软件的应用范围构成了局限性。