搜寻结果

  1. ineedgerf

    [乱弹] 语料库技术讨论

    前两天看了出版社寄来的 SWECCL 语料库,看了以后不禁失望。 三张光盘,其中两张多的内容是声音,而文本的内容约 78mb。当然,这已经很不容易了。我本人的体会也很深。 就说这 78mb 的文本,除了raw data之外,标注文本的内容随便引用几行 [WECCL\Tagged Data\Narration\A1147ND.CLS:1-6] : <s> <WCOMP> <NAR> <GRADE1> <YR03> <TIMED> <SCORE?> <LENGTH362W> Join <VV0> Us <PPIO2> ! <!> </s> <s> It <PPH1> is...
  2. ineedgerf

    [砖头] COLEN 及其搜索工具下载(更新)

    COLEN 语料库是我在2003年前后建立的一个“教材文本”库。当时主要用于网站浏览,后来就把它标注,自己在课堂上使用。 COLEN 收集了我国大学英语教材中的阅读文章,共930篇。 COLEN 的结构为 xml 结构,头部信息大都没有提供,但正文部分使用 TOSCA/LOB 标注,它的准确率大概有 95% 左右。 COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS,它的词性码结构如下: <!--s--><w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w...
  3. ineedgerf

    [求助]colsec的赋码原则?

    There are two sets of codes: one is the coding of learners' errors and the other is the POS. The POS part is based on TOSCA/LOB tagset and tagged by this tagger. For the tagset, please visit http://english.htu.edu.cn/lingualsoft/index.htm and there is the COLEN corpus I did about three years...
Back
顶部