请教文本的统计分析方法

#1
请教各位坛友:我在做一个元话语的跨语言比较研究,自建了文本篇数相同的两个不同语言的语料库,但文本的长度差别较大。现在要比较两个库在元话语使用频数方面是否有差异,对该用何种统计分析方法有些困惑:如果用独立样本t检验,比较的是平均每篇使用的频数是否有显著差异,没有考虑语料长度,这样似乎不够可信,有没有更好的统计分析方法?因为自己是统计分析菜鸟,特此请教!先谢谢了
 
#2
个人看法,建议先将原始频数折合为标准化频数(这样就考虑了语料长度),然后对两个组做曼-惠特尼U检验(确是独立样本,但难说符合正态分布)
 
顶部