Corpus4u Community 语料库语言学论坛
>
专题研究
>
学习者语料库与二语习得
>
中国学生英语口笔语语料库
> 词频统计中的问题
PDA
查看完整版本 :
词频统计中的问题
zyhope
2007-05-23, 09:32 PM
关于中国学习者的语料库中的文本都有作了标记了,如,</interlocutor>,<\sp3>等,在统计的时候,索引软件好象也把它们当成一个一个词来计算,
请问这个问题怎么解决?特别是象colsec这类的语料库,光盘里都是已经标好了的材料了。
急需各位老师的帮助,谢谢!
清风出袖
2007-05-24, 05:10 PM
在索引程序中有相关的按钮可以选中它,忽略它们的。
vBulletin® v3.7.4,版权所有 ©2000-2009,Jelsoft Enterprises Ltd.