PDA

查看完整版本 : 词频统计中的问题


zyhope
2007-05-23, 09:32 PM
关于中国学习者的语料库中的文本都有作了标记了,如,</interlocutor>,<\sp3>等,在统计的时候,索引软件好象也把它们当成一个一个词来计算,
请问这个问题怎么解决?特别是象colsec这类的语料库,光盘里都是已经标好了的材料了。
急需各位老师的帮助,谢谢!

清风出袖
2007-05-24, 05:10 PM
在索引程序中有相关的按钮可以选中它,忽略它们的。