请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

本文由 xiucai2013-09-16 发表於 "编程与工具开发" 讨论区

  1. 如题,研究在10个维度(如10个语法属性)标注某一动词在7个子库中的检索项,并统计各子库各维度频数,共计70个频数,请问采用何种统计分析技术比较7个子库两两之间分别在10个维度的观测频数之间的差异显著性?谢谢!
     
  2. 回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

    其实我觉得用原始频数对比就可以了,画个柱状图啥的。

    如果非要用统计模型的话,可以试试 对数-线性模型(log-linear model)

    把你的数据按下列格式排列,保存到文本文件 data.txt:

    Corpus Feature Freq

    corpus1 Feature1 freq_1_1
    corpus1 Feature2 freq_1_2
    ......
    corpus7 Feature10 freq_7_10

    然后运行统计软件R,输入下列命令

    rm(list=ls(all=T))
    data <- read.table(file=choose.files(),header=T,sep="\t",quote="") # open data.txt
    model <- glm(Freq ~ Corpus * Feature, family="poisson", data=data)
    summary(model)

    然后根据统计结果解读数据。
     
    Last edited: 2013-09-16
  3. 回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

    谢谢您的及时与专业的回复!可是我不会R软件,暂时也来不及去学习了,以后一定学,不知道有没有和卡方检验或者方差分析(如SPSS中的)相近的统计技术能完成这一检验,请指教,多谢多谢!
     
  4. 回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

    方差分析不适合,因为你的数据是频率。

    卡方检验一般每个变量 有 2~4 个 Level 还好分析。你的Level太多了,两两对比的话有
    945 种可能,用统计分析的话也不好解释。

    也许你可以归并一下变量,降低分析的难度。

    或者把原始频率标准化后,画 7个柱状图,每个图中有 10个变量的频数,看一下大致的趋势。找出差异最明显的分析一下就可以了吧。
     
  5. 回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

    非常感谢这位C友,建议很好,我再综合考虑一下,可能会整合维度或者选择性进行卡方检验再分析,谢谢你!
     
  6. 按照前辈列的进行操作,出现Error in eval(expr, envir, enclos) : object 'Freq' not found,不知道数据格式哪里错了,能否请前辈操作截图?感谢!
     
  7. 你好,附件是一些测试数据的结果。Freq 那一列应该是频率数字。
     

    附件文件:

  8. 感谢前辈,我对intercept和estimate下面的数据不懂,前辈若有时间请稍作解释,感谢!