请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

#1
如题,研究在10个维度(如10个语法属性)标注某一动词在7个子库中的检索项,并统计各子库各维度频数,共计70个频数,请问采用何种统计分析技术比较7个子库两两之间分别在10个维度的观测频数之间的差异显著性?谢谢!
 
#2
回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

其实我觉得用原始频数对比就可以了,画个柱状图啥的。

如果非要用统计模型的话,可以试试 对数-线性模型(log-linear model)

把你的数据按下列格式排列,保存到文本文件 data.txt:

Corpus Feature Freq

corpus1 Feature1 freq_1_1
corpus1 Feature2 freq_1_2
......
corpus7 Feature10 freq_7_10

然后运行统计软件R,输入下列命令

rm(list=ls(all=T))
data <- read.table(file=choose.files(),header=T,sep="\t",quote="") # open data.txt
model <- glm(Freq ~ Corpus * Feature, family="poisson", data=data)
summary(model)

然后根据统计结果解读数据。
 
Last edited:
#3
回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

谢谢您的及时与专业的回复!可是我不会R软件,暂时也来不及去学习了,以后一定学,不知道有没有和卡方检验或者方差分析(如SPSS中的)相近的统计技术能完成这一检验,请指教,多谢多谢!
 
#4
回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

方差分析不适合,因为你的数据是频率。

卡方检验一般每个变量 有 2~4 个 Level 还好分析。你的Level太多了,两两对比的话有
945 种可能,用统计分析的话也不好解释。

也许你可以归并一下变量,降低分析的难度。

或者把原始频率标准化后,画 7个柱状图,每个图中有 10个变量的频数,看一下大致的趋势。找出差异最明显的分析一下就可以了吧。
 
#5
回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

非常感谢这位C友,建议很好,我再综合考虑一下,可能会整合维度或者选择性进行卡方检验再分析,谢谢你!
 
#6
回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

其实我觉得用原始频数对比就可以了,画个柱状图啥的。

如果非要用统计模型的话,可以试试 对数-线性模型(log-linear model)

把你的数据按下列格式排列,保存到文本文件 data.txt:

Corpus Feature Freq

corpus1 Feature1 freq_1_1
corpus1 Feature2 freq_1_2
......
corpus7 Feature10 freq_7_10

然后运行统计软件R,输入下列命令

rm(list=ls(all=T))
data <- read.table(file=choose.files(),header=T,sep="\t",quote="") # open data.txt
model <- glm(Freq ~ Corpus * Feature, family="poisson", data=data)
summary(model)

然后根据统计结果解读数据。
按照前辈列的进行操作,出现Error in eval(expr, envir, enclos) : object 'Freq' not found,不知道数据格式哪里错了,能否请前辈操作截图?感谢!
 
顶部