搜寻结果

  1. williamJia

    如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

    回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载) 只破坏不构建是没有意义的! 影响文章难度的因素有很多,这个问题的背后还有一个问题,就是人们对什么是可读性readability的理解也是不尽相同的,不同的模型往往基于不同的理解,侧重点各不相同,它们会从不同的侧面反映出语言的特点,到目前为止似乎还没有什么绝对的标准。 可以参考的标准有: 1)基于单词的物理特征:如音节、词长、句长等 2)基于统计信息:单词频率信息、词块统计信息、短语数量及频率信息等...
  2. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal 杨伯翰大学语料库(BYU-BNC BRITISH NATIONAL CORPUS)http://corpus.byu.edu/bnc/
  3. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal 服务器程序今天已经更新,修正了关于标点符号的BUG。
  4. williamJia

    如何用正则表达式搜索若干段落中的内容?谢谢!

    回复: 如何用正则表达式搜索若干段落中的内容?谢谢! 你没有使用多行模式进行搜索
  5. williamJia

    如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

    回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载) 适用
  6. williamJia

    支持unicode和正则表达式的语料库检索工具

    回复: 支持unicode和正则表达式的语料库检索工具 可以把这个功能加上! 目前的办法是:如果你的数据源是每行一句,检索结果就也是每行一句。结果的形式取决于数据的格式。 可以,这样就变成了填空题。 目前的办法是:在结果中用网页编辑工具批量替换检索词,替换成空格就可以 现在就可以,软件支持正则表达式,只要写对了表达式,想怎么查都可以 最近因为比较忙,等1月份可以集中升级一次级,到时候一定发给肖老师。 -----------------------------...
  7. williamJia

    支持unicode和正则表达式的语料库检索工具

    回复: 支持unicode和正则表达式的语料库检索工具 要把result.CSS文件也拷贝出去,就能高亮显示了,result.htm和result.css放在一个目录里就可以了。自己可以修改css,以达到不同的显示效果。
  8. williamJia

    支持unicode和正则表达式的语料库检索工具

    :) 1)支持case 2)支持unicode, 测试数据含有多种语言(data目录下) 3)支持正则表达式 4)比较简洁,操作容易
  9. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal 哈哈,目前我还只是个单身汉。
  10. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal 语料在线系统开发的一得之见: 1)现场计算是灾难性的,使用索引是必须的。在此之前我写了一个实现了单机版colligator全部功能的web版(case, sort...
  11. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal mysql只用来做存储,它的内置的全文搜索效率并不高,我没有使用,我使用sphinx对MySQL进行全文索引。sphinx是个不错的检索工具,功能不多,但是速度快到到让人无法想象,这又是俄国佬的贡献。 我的数据库格式如下(以SECCL1为例,使用文字描述,并非真实字段名): 每句话一条记录, id:用来做主键 行号:该句在文章中的行数 考试类型: 年级: 入学年份: 分组号: 任务类型: 性别: 得分级别: 句子的POS码:...
  12. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal 连字符的BUG修正,加入了对标点的支持(还在进一步调试中),可以检索“ok ?”这类表达式了。服务器上程序还没更新,稍后会更新。谢谢laohong的建议。 现在检索“already .” 就只有28个hits了。而already 909个hits.
  13. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal 1.POS检索,可否有wildcard功能,类似Mark Davies, 如V*, N*等? 直接处理这个功能会使检索速度大大降低,为了效率一般在底层把N*,转成NN1,NN,NN0等可能的组合形式,进行“或”查询,这和直接输入没有太大的区别,这个版本暂时还没有提供这个功能。Lucene引擎可以进行wildcard,sphinx引擎不提供wildcard。我们用的是sphinx。 2. 为便于使用者,Display Mode有三种选择,但Search...
  14. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal 没错,确实不支持标点符号,我在写索引的时候把标点滤掉了!另外一个小BUG就是把连字符-也滤掉了,这样搜索good会把good-bye也搜索出来。稍后的版本会解决这些问题。
  15. williamJia

    中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

    回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal search mode: 支持3种不同搜索格式 Literal: 搜索单词或短语,如:look, looks, look at, look for, have a good look ... POS: 搜索POS码,如:JJ NN2, BOTH: 搜索单词同时限定POS码,如: look_NN1, look_VV0, display mode: 支持3种不同的显示形式 WORD:只显示单词 POS:只显示POS码 BOTH:同时显示单词及POS码...
  16. williamJia

    用正则表达应该怎样才能找到()中的任意中文并去除呢?

    回复: 我用这个正则表达检索公式为什么检索不到所需要的内容? 你可以提供一个样本,我帮你写个小程序搞定
  17. williamJia

    用正则表达应该怎样才能找到()中的任意中文并去除呢?

    回复: 我用这个正则表达检索公式为什么检索不到所需要的内容? http://www.regexlab.com/zh/replshop.asp?pat=&rto=&txt=&dlt= 如果使用半角括号需要用转义符"\", 因为半角括号是正则表达式的保留字。 半角情况: 表达式:\((.*?)\) 替换为:(空字符,什么也不要输入) 文本:please delete chinese(中文) characters(字符) in this text. 全角情况: 表达式:((.*?)) 替换为:(空字符,什么也不要输入) 文本:please delete...
  18. williamJia

    标准句长为何不同?

    回复: 标准句长为何不同? sd. sent.length sd应该是标准差的意思吧?
  19. williamJia

    Collocator和Colligator软件beta版

    回复: Collocator和Colligator软件beta版 软件会忽略以<s>和</s>开始的行,所以请不要在<s>标签后直接放数据,最好另起一行,如: <s> Word_POS Word_POS Word_POS </s> 而不要使用: <s>Word_POS Word_POS Word_POS</s> 不然无法检索到数据
  20. williamJia

    桂教授的这个表是怎么统计出来的?

    回复: 桂教授的这个表是怎么统计出来的? 具体他们是怎么做的,我也不清楚。但是一般来说,应该是人工统计和赋码相结合得到的。软件可以将赋码大致归类,然后需要人工校对一下。
Back
顶部