搜寻结果

  1. Q

    请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢!

    回复: 请教:如何进行多个子语料库(7个)在某10个观察维度上频数间的两两差异显著性检验?谢谢! 其实我觉得用原始频数对比就可以了,画个柱状图啥的。 如果非要用统计模型的话,可以试试 对数-线性模型(log-linear model) 把你的数据按下列格式排列,保存到文本文件 data.txt: Corpus Feature Freq corpus1 Feature1 freq_1_1 corpus1 Feature2 freq_1_2 ...... corpus7 Feature10 freq_7_10 然后运行统计软件R,输入下列命令...
  2. Q

    一元组

    回复: 一元组 一元组是计算语言学中常用的术语。可能为了统一吧,因为还有 二元组、三元组。
  3. Q

    有没有通过语料库研究句频的人

    回复: 有没有通过语料库研究句频的人 Frequency of Basic English Grammatical Structures: A Corpus Analysis
  4. Q

    一元组

    回复: 一元组 unigram 通俗的说就是一个词,一元组矩阵我理解是这样的。比如两个文章A 和 B. A: I love data-driven linguistics. B: Theoretical linguists dismiss data. 把 A、B两篇文章变成一元组矩阵后变为:
  5. Q

    第12届树库与语言学会议

    The Twelfth Workshop on Treebanks and Linguistic Theories (TLT12) 13th-14th December, Sofia, Bulgaria Co-event: The Third Workshop on Annotation of Corpora for Research in the Humanities
  6. Q

    怎样对齐双语字幕翻译呢?以便批量输入ACCESS或EXCEL

    回复: 怎样对齐双语字幕翻译呢?以便批量输入ACCESS或EXCEL 提供一个思路: (1)下载文本编辑器 EditPlus 。 (2)用 EditPlus 打开你的字幕文件。 (3)按快捷键 Ctrl + H,在弹出的替换对话框中勾选 Regular expression (4)按快捷键 Ctrl + A 选定所有文本 在 Find what 中输入 \n\n 在 Replace with 中输入 \n(chunk)\n 点击 Replace All (5)按快捷键 Ctrl + A 选定所有文本 在 Find what...
  7. Q

    Speech annotation and corpus tools

    回复: Speech annotation and corpus tools 挖一下老帖。顺便更新一下下载地址: https://www.dropbox.com/s/vjekt1x4c3syh16/speech_communication_2001_33_1_2.zip
  8. Q

    《语料编程VBA的10条高速路》

    回复: 《语料编程VBA的10条高速路》 谢谢李亮博士的总结,很全面。
  9. Q

    双/多语语料库对齐软件 InterText

    回复: 双/多语语料库对齐软件 InterText InterText 单机版使用指南 1. 下载 Windows 版 InterText: http://wanthalf.saga.cz/InterText.exe 2. InterText 要求源语文本和目标语文本分别存放,文件命名格式为 filename_version,如 jane_en.xml 和 jane_cn.xml。XML文件中可添加分句后的信息(见附件 align.zip )。 3. 打开 InterText, 选择菜单 Alignment --> New,在对话框中输入两个待对齐文件的信息: 4. 下载...
  10. Q

    双/多语语料库对齐软件 InterText

    回复: 双/多语语料库对齐软件 InterText 自动对齐靠 Hunalign,我试了一小段,好像还行,但肯定需要人工调。 人工调整工作量还是大,所以可能需要多人协同工作。这个软件有意思的是支持客户端 -- 服务器同步。这样大家就可以共同校对语料了,加快建库速度。
  11. Q

    双/多语语料库对齐软件 InterText

    http://wanthalf.saga.cz/intertext InterText 一款有意思的句级手工对齐软件。有以下功能: a. 可内嵌自动句对齐软件 hunalign 和 TAC 2 b. 对齐时可修改原文本内容和结构 c. 有客户端和服务器两个版本,支持同步(sync)。因此适用于多人的协同标注。
  12. Q

    求两篇关于signaling noun (IJCL)的文章

    回复: 求两篇关于signaling noun的文章 Thanks!
  13. Q

    求两篇关于signaling noun (IJCL)的文章

    回复: 求两篇关于signaling noun的文章 第一篇: http://pan.baidu.com/share/link?shareid=691901&uk=220336884 第二本: http://ishare.iask.sina.com.cn/f/19776946.html 请问 signaling noun 翻译成中文是什么呢?“路标名词”? 好像还有人研究 “外壳名词”(shell nouns),不知二者是什么关系?
  14. Q

    请教统计检验方法:频数显著性差异

    回复: 请教统计检验方法:频数显著性差异 统计方法跟研究什么语言没关系,只要两个语料库分词标准一样就可以用。不用找书了吧,坛子里搜一下多了去了: http://www.corpus4u.org/forum/search.php?searchid=134773
  15. Q

    资源分享:公开课 Web Intelligence and Big Data

    印度理工学校的公开课,介绍GOOGLE的一些幕后技术: https://class.coursera.org/bigdata-002/lecture/index 前两讲介绍了一些基本的搜索和统计算法,有 tf-idf, mutual information, bayes定理等,也算跟语料库有些关系吧。:)
  16. Q

    请教:自己如何开发建设在线检索网站

    回复: 请教:自己如何开发建设在线检索网站 强烈推荐 CQP Web:不用编程,检索速度快。这是专门为语料库语言学研究制定的网络框架,各种语言学研究的统计算法都集成好了。 不建议从头开始学:1. 效率不高,编出来都是玩具,无法建立速度快、安全性高的网站; 2. 俗话说的好,不要再重造轮子了。 只是像李博士和海洋说的,需要 Linux + Apache + MySQL + Perl/Python(简称 LAMP),把这些东西弄明白确实得花些时间。我最近一直在 windows 底下使用 虚拟机 + Ubuntu 系统,感觉不错,有些资源推荐给你,希望有帮助。 (1)安装虚拟机 +...
  17. Q

    语料库语言学术语汇编A glossary of corpus linguistics 2.0 (英汉对照)

    回复: 语料库语言学术语汇编A glossary of corpus linguistics 2.0 (英汉对照) Delta P 跟 互信息(Mutual Information)有什么区别呢?MI 貌似能找到相互吸引比较强的低频搭配,不知跟 Delta P 算出的差别有多大?
  18. Q

    论坛可以支持程序语言语法高亮了

    回复: 论坛可以支持程序语言语法高亮了 #!/usr/bin/perl use strict; use warnings; print "Hello, c-pals!\n";
  19. Q

    语料库语言学及相关领域期刊列表

    回复: 语料库语言学及相关领域期刊列表 维基百科条目被删了,转移到下面这个网址: http://corpus.eu.pn/journal.html
  20. Q

    Science上的一篇文章Quantative Analysis of Culture Using Millions of Digitized Books

    Quantative Analysis of Culture Using Millions of Digitized Books we constructed a corpus of digitized texts containing about 4% of all books ever printed......
Back
顶部