搜寻结果

  1. williamJia

    compared to & compared with 区别

    回复: compared to & compared with 区别 似乎compare 后面接sb的时候,用with要多于to;接sth的时候看不出区别
  2. williamJia

    请教关于重复的正则表达式

    回复: 请教关于重复的正则表达式 正则表达式检索还有一个问题需要注意: 比如文本是:A A A A A 要检索 A A 组合的个数 一般的正则表达式只能检索出2个结果即: (A A) (A A) A 而实际上应该是4个结果。PHP,Ruby,Perl自带的正则表达式都只能检索出2个结果,要检索出4个结果,需要干预正则表达式的步长(offset)。
  3. williamJia

    BFSU Collocator1.0参数求解

    回复: BFSU Collocator1.0参数求解 另外,你可以试一下语料库标注后的统计结果。对于节点词和共现词在语料库中出现的频率可以单独检索一下,作为验证。 另外,colligator 2.0和collocator 1.0只处理tokens不处理types, 所有的数值指的都是token值 如果你要处理types需要,需要自己手动更改检索条件(符合正则表达式),如: go|went|doing|gone 另外,注意设置span的值和最小限制。 我测试了一下生语料没有发现你说的问题。
  4. williamJia

    BFSU Collocator1.0参数求解

    回复: BFSU Collocator1.0参数求解 为了验证那个结果是正确,可以用纯文本工具如ultraEidt打开语料库,查找节点词出现的次数。对比一下就可以出结果,注意查找时要在单词前后都加空格,不然结果不准确(如:banking会计入bank)。也可以用其他语料库工具处理,然后对比一下,我的代码的处理结果和ultraEidt是相同的。 要计算语料库N的大小,可以用ultraEidt打开文本然后统计空格格个数,一般有多少个词就有多少个空格。这样你可以大概得到N的值。
  5. williamJia

    BFSU Collocator1.0参数求解

    回复: BFSU Collocator1.0参数求解 f(c) 是共现词在语料库中出现的次数 N 是语料库的总词数 f(n) 是节点词在语料库中出现的次数 f(n,c) 节点词和共现词在语料库中共现的次数
  6. williamJia

    2009高考作文90后超级雷语

    1、随着李鸿章签下的一款款条约,一个古老民族的尊严丧失殆尽,中国沉寂了,但是90后出现了,希望出现了。(我等着90后推翻卖国贼李鸿章的统治。) 2、这群刚长出羽翼的孩子。(鸟人一族?) 3、一个“80后”倒下去,千百个“90后”站起来。(……) 4、9.8级的地震把整个四川变成一片瓦砾。(同学,你太狠了吧。) 5、在九千年前大诗人苏轼就曾经说过……(周口店人苏轼?) 6、蝴蝶也是朝生暮死的东西。(珍惜蝴蝶吧,明天就看不见同一只了。)...
  7. williamJia

    下面这篇文章中的卡方值是怎么算出来的?

    回复: 下面这篇文章中的卡方值是怎么算出来的? 一个词是否是关键词,仅仅靠它在该文本中出现的频率是不够的,还需要有个参考语料库(如:BNC)。例如:the,a, of 等词在文本中的频率都很高,但是它们不是关键词,因为它们在任何文本中的频率都很高。当计算一个词是否是一个文本的关键词时可以通过卡方判断,通过计算卡方值的大小就可以判断一个词是否是关键词。计算方法如下: X2= (|ad-bc|-N/2)2 * N / (a+b)(c+d)(b+d)(c+d) (N=a+b+c+d)...
  8. williamJia

    求教自建语料库开个问题

    回复: 求教自建语料库开个问题 1)没有影响 2)如若还原,可以批量替换,如: ' ,'->',' ' .'->'.' ......
  9. williamJia

    星火CLEC 分析系统v1.0

    回复: 20个小时没合眼统计已经基本做完了,正在进一步测试 附件是这个软件的最新版,提供了屈折还原的功能,速度有所提高。 缺点是不适合处理大文本,速度会很慢。这是我写的第一个语料库处理工具,不太成熟,是实习期作品。 其它作品: Readability Analyzer: http://www.corpus4u.org/attachment.php?attachmentid=599&d=1245724858 Collocator and Colligator with Demo...
  10. williamJia

    Collocator和Colligator软件beta版

    回复: Collocator和Colligator软件beta版 语料库采用什么样的格式,可能是由检索软件决定的。 Word_POS或POS_WORD POS/WORD WORD/POS这类比较简单,方便使用。...
  11. williamJia

    Word Smart 2009 西安工业大学外语系开发的语料库检索工具

    回复: Word Smart 2009 西安工业大学外语系开发的语料库检索工具 MS-DOS,Windows,Oracle,Google, Amazon, PHP, MYSQL,Ruby .... 这些都是一个两个人做的,最后才有了团队。更正一点:不是“许多”几乎是“无一例外”。 xusun575居然能把三年前的帖子都翻出来,看来还真用心,不过似乎用的不是"君子之心",我的问题是这有必要么?还是有空干点正事吧,清者自清,浊者自浊,先self-abuse再abuse others有意义么?尔曹身与名俱灭,不废江河万古流。
  12. williamJia

    Word Smart 2009 西安工业大学外语系开发的语料库检索工具

    回复: Word Smart 2009 西安工业大学外语系开发的语料库检索工具 第一,请不要自我吹嘘,抓到一个BUG并不一定证明你就是early bird. 第二,世界一流的软件很多都是个人一己或一小圈子之力开发的 第三,我们应该支持word smart这类国产软件的开发,无论如何作者的精神是可嘉的。我们不可能总依赖别人,更可况目前的语料库相关软件,还很年轻,还有很大的提升空间,有志者完全可以投入并提升行业的标准。你这种心态似乎不太健康,实在与人于己都没好处。 第四,我坚决支持并尊重lixiaoshun。...
  13. williamJia

    请问~~有关检索平台搭建的问题~~~

    回复: 请问~~有关检索平台搭建的问题~~~ 用什么搭建都可以,还有不少在线语料库是使用Perl搭建的。你自己擅长什么就用什么,各种技术都能实现语料库检索的基本要求,选用什么完全是出于个人习惯。 MySQL+PHP最大的好处是跨平台,MYSQL是目前世界上最快的数据库,PHP开发很快捷,容易上手,PHP和MYSQL都是开源且免费的。...
  14. williamJia

    征集语料库软件需求

    回复: 征集语料库软件需求 Colligator和Collocator软件 http://www.corpus4u.org/showthread.php?t=4873
  15. williamJia

    Word Smart 2009 西安工业大学外语系开发的语料库检索工具

    回复: Word Smart 2009 为何不发一个Demo让大家试试
  16. williamJia

    紧急 求助!双宾构式的检索

    回复: 紧急 求助! 很遗憾BNC那个在线语料库不支持正则表达式
  17. williamJia

    分享:一个有不少语料库研究的文章的杂志Journal of English Linguistics

    回复: 分享:一个有不少语料库研究的文章的杂志Journal of English Linguistics 你好,可否分享给我一份。WilliamJia@opencorpus.org
  18. williamJia

    新人求助!!!希望高老师帮忙解答,赐教

    回复: 新人求助!!!希望高老师帮忙解答,赐教 我对这种趋势感情很复杂,很难说这里没有浮躁的心理作祟,由于国内语料库研究相对落后,有很大的空白,所以似乎投资语料库更容易产生“学术成果”。我个人接触过一些学校的老师甚至是学科带头人,似乎还没有明白语料库是什么,就开始投入语料库的建设,居然还可以立项。 以下是我个人的一孔之见: 1)语料库是有一定门槛的:语料库研究不同于一般的人文社科类研究,她涉及诸多学科的知识,同时受计算机技术的制约,没有好的检索工具再好的语料库也难以发挥作用。所以在建设语料库之前,先得考虑以下是否已经具备这些基本的条件。...
  19. williamJia

    推荐两本 Programming for Linguists 的书 PERL JAVA

    回复: 推荐两本 Programming for Linguists 的书 PERL JAVA Perl语言图书合集,有280多M,BT下载,也许对大家有用。
  20. williamJia

    谁有免费的英语词频统计软件?

    回复: 谁有免费的英语词频统计软件? http://www.corpus4u.org/showthread.php?t=4826 第四楼的软件可以产生统计词表,包括word和lemma两种不同形式 http://www.corpus4u.org/attachment.php?attachmentid=599&d=1245724858
Back
顶部