查看完整版本 : [求助]colsec的赋码原则?
xieang_007
2005-11-06, 11:15 PM
我有语料库,但是没有赋码的说明,请问哪位同仁有,可不可以给我分享一下
xiaoz
2005-11-06, 11:50 PM
Some descriptions here:
http://www.corpus4u.com/upload/forum/2005072921580052.rar
ineedgerf
2005-11-07, 12:47 PM
There are two sets of codes: one is the coding of learners' errors and the other is the POS. The POS part is based on TOSCA/LOB tagset and tagged by this tagger. For the tagset, please visit http://english.htu.edu.cn/lingualsoft/index.htm and there is the COLEN corpus I did about three years ago.
[本贴已被 作者 于 2005年11月07日 13时00分22秒 编辑过]
xieang_007
2005-11-07, 09:38 PM
Thanks
xieang_007
2005-11-07, 10:38 PM
但是还有一部分是表示修正语和打断等等,这些码的Tagset就不得而知了啊
ineedgerf
2005-11-09, 04:21 PM
这些码只有一个格式,没有“码集”,因为错误类型很多,在处理原来的标注格式时,我也一并将原来的标注格式转换为了和其它码句法相同的XML格式。
vBulletin® v3.7.4,版权所有 ©2000-2009,Jelsoft Enterprises Ltd.