请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

xiucai · 2013-09-16

如题，研究在10个维度（如10个语法属性）标注某一动词在7个子库中的检索项，并统计各子库各维度频数，共计70个频数，请问采用何种统计分析技术比较7个子库两两之间分别在10个维度的观测频数之间的差异显著性？谢谢！

qhdjason · 2013-09-16

回复: 请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

其实我觉得用原始频数对比就可以了，画个柱状图啥的。

如果非要用统计模型的话，可以试试对数-线性模型（log-linear model）

把你的数据按下列格式排列，保存到文本文件 data.txt：

Corpus Feature Freq

corpus1 Feature1 freq_1_1
corpus1 Feature2 freq_1_2
......
corpus7 Feature10 freq_7_10

然后运行统计软件R，输入下列命令

rm(list=ls(all=T))
data <- read.table(file=choose.files(),header=T,sep="\t",quote="") # open data.txt
model <- glm(Freq ~ Corpus * Feature, family="poisson", data=data)
summary(model)

然后根据统计结果解读数据。

xiucai · 2013-09-16

回复: 请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

谢谢您的及时与专业的回复！可是我不会R软件，暂时也来不及去学习了，以后一定学，不知道有没有和卡方检验或者方差分析（如SPSS中的）相近的统计技术能完成这一检验，请指教，多谢多谢！

qhdjason · 2013-09-17

回复: 请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

方差分析不适合，因为你的数据是频率。

卡方检验一般每个变量有 2~4 个 Level 还好分析。你的Level太多了，两两对比的话有
945 种可能，用统计分析的话也不好解释。

也许你可以归并一下变量，降低分析的难度。

或者把原始频率标准化后，画 7个柱状图，每个图中有 10个变量的频数，看一下大致的趋势。找出差异最明显的分析一下就可以了吧。

xiucai · 2013-09-18

回复: 请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

非常感谢这位C友，建议很好，我再综合考虑一下，可能会整合维度或者选择性进行卡方检验再分析，谢谢你！

wenjun · 2016-02-20

作者 qhdjason:
回复: 请教：如何进行多个子语料库（7个）在某10个观察维度上频数间的两两差异显著性检验？谢谢！

其实我觉得用原始频数对比就可以了，画个柱状图啥的。

如果非要用统计模型的话，可以试试对数-线性模型（log-linear model）

把你的数据按下列格式排列，保存到文本文件 data.txt：

Corpus Feature Freq

corpus1 Feature1 freq_1_1
corpus1 Feature2 freq_1_2
......
corpus7 Feature10 freq_7_10

然后运行统计软件R，输入下列命令

rm(list=ls(all=T))
data <- read.table(file=choose.files(),header=T,sep="\t",quote="") # open data.txt
model <- glm(Freq ~ Corpus * Feature, family="poisson", data=data)
summary(model)

然后根据统计结果解读数据。

按照前辈列的进行操作，出现Error in eval(expr, envir, enclos) : object 'Freq' not found，不知道数据格式哪里错了，能否请前辈操作截图？感谢！

qhdjason · 2016-02-20

你好，附件是一些测试数据的结果。Freq 那一列应该是频率数字。

wenjun · 2016-02-21

作者 qhdjason:
你好，附件是一些测试数据的结果。Freq 那一列应该是频率数字。

感谢前辈，我对intercept和estimate下面的数据不懂，前辈若有时间请稍作解释，感谢！

qhdjason · 2016-02-21

可以参考下面这本书（http://gen.lib.rus.ec/）：
An Introduction to Categorical Data Analysis (2nd Ed.)

第 2.2 节有关 Odds Ratio 的介绍和
第 7.1 节（p.207）有关如何解读 Log Linear 模型的结果