请教文本的统计分析方法

kxgli · 2019-06-12

请教各位坛友：我在做一个元话语的跨语言比较研究，自建了文本篇数相同的两个不同语言的语料库，但文本的长度差别较大。现在要比较两个库在元话语使用频数方面是否有差异，对该用何种统计分析方法有些困惑：如果用独立样本t检验，比较的是平均每篇使用的频数是否有显著差异，没有考虑语料长度，这样似乎不够可信，有没有更好的统计分析方法？因为自己是统计分析菜鸟，特此请教！先谢谢了

ArthurW · 2019-06-12

个人看法，建议先将原始频数折合为标准化频数（这样就考虑了语料长度），然后对两个组做曼-惠特尼U检验（确是独立样本，但难说符合正态分布）

请教文本的统计分析方法

kxgli

ArthurW