请教大虾们啊!急!

#1
[FONT=黑体]我要从ST3和ST5中分别采集样本。不是根据文章的数量,而是根据字数来采集的话,怎么样采集呢?有没有什么工具可以直接把数字统计出来呢?哪位大虾给指导下呢?

[/FONT]
 

Haiyang Ai

Administrator
Staff member
#2
回复: 请教大虾们啊!急!

看看每篇文章大约多少单词,然后根据你的采样总数计算大约需要多少篇文章,从而进行抽样。
 

laohong

管理员
Staff member
#3
用WordSmith里的Splitter一次性把ST3里的每篇文章拆成一个个单独的文件,然后load这些文件做wordlist,这样就得到了每篇文章的词频,然后就是选择你想要的文本了……同样方法处理ST5即可……
 
顶部