搜寻结果

[乱弹] 语料库技术讨论

前两天看了出版社寄来的 SWECCL 语料库，看了以后不禁失望。三张光盘，其中两张多的内容是声音，而文本的内容约 78mb。当然，这已经很不容易了。我本人的体会也很深。就说这 78mb 的文本，除了raw data之外，标注文本的内容随便引用几行 [WECCL\Tagged Data\Narration\A1147ND.CLS:1-6] ： <s> <WCOMP> <NAR> <GRADE1> <YR03> <TIMED> <SCORE?> <LENGTH362W> Join <VV0> Us <PPIO2> ! <!> </s> <s> It <PPH1> is...
- ineedgerf
- 主题
- 2005-11-07
- 回覆: 18
- 论坛: 中国学生英语口笔语语料库
[砖头] COLEN 及其搜索工具下载（更新）

有raw text。
- ineedgerf
- Post #3
- 2005-11-07
- 论坛: 学习者语料库与二语习得
[砖头] COLEN 及其搜索工具下载（更新）

COLEN 语料库是我在2003年前后建立的一个“教材文本”库。当时主要用于网站浏览，后来就把它标注，自己在课堂上使用。 COLEN 收集了我国大学英语教材中的阅读文章，共930篇。 COLEN 的结构为 xml 结构，头部信息大都没有提供，但正文部分使用 TOSCA/LOB 标注，它的准确率大概有 95% 左右。 COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS，它的词性码结构如下： <w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w...
- ineedgerf
- 主题
- 2005-11-07
- 回覆: 24
- 论坛: 学习者语料库与二语习得
[求助]colsec的赋码原则？

There are two sets of codes: one is the coding of learners' errors and the other is the POS. The POS part is based on TOSCA/LOB tagset and tagged by this tagger. For the tagset, please visit http://english.htu.edu.cn/lingualsoft/index.htm and there is the COLEN corpus I did about three years...
- ineedgerf
- Post #3
- 2005-11-07
- 论坛: 中国学习者英语口语语料库

View older results

Home
搜索

搜寻结果

[乱弹] 语料库技术讨论

[砖头] COLEN 及其搜索工具下载（更新）

[砖头] COLEN 及其搜索工具下载（更新）

[求助]colsec的赋码原则？