搜寻结果

  1. M

    支持正规表达式的语料库联机检索

    网址:http://59.77.17.146/rsearch.html 1. 完美支持藏文居中显示。 2. 懂了Perl的正规表达式就能用,不需掌握各检索软件自己规定的检索表达式(也不一定比regex强大)。 3. 语料库可带标注。 4. unicode表示,支持任何语言。 5. 即将推出自建语料上传检索,可加密码,防止别人盗用。 缺点: 旧机器,顺序检索,速度慢。使用者需耐心。
  2. M

    藏汉双语小词典测试

    朋友的东西,先拿来共享一下,方便汉藏交流。网址: http://59.77.17.146/dic.html 凡4语种10本词典。
  3. M

    用AntConc处理中文concordance, wordlist, N-gram

    回复: 用AntConc处理中文concordance, wordlist, N-gram AntConc 对藏文处理是不完善的,他只是可以支持非常多的编码(包括UNICODE编码),本身对藏文一无所知。我刚学了几句藏文,发现如果检索简单藏文字母,AntConc对于有下加字和元音的藏文“字”有错误(说明是字节匹配,不是字匹配)。目前能完美处理藏文检索的只有俺开发的检索系统。可惜,由于某种原因,目前尚不能公开给大家使用,等一段时间吧。
  4. M

    语料库的开发见解

    回复: 语料库的开发见解 hacker 的转帖是毫无道理可言,这样来比较不同编程语言的速度完全是误导。所谓一知半解能带来多大的害处! 读硬盘是非常慢的操作,他所说的程序算法相同,结果所花费的时间差别大,完全是在于磁盘缓冲的处理不同。每个语言对此都有不同的默认值。 事实上,采取顺序检索,查询the出现的次数和查询abacadabra几乎都要花相同的时间。但是要是你做索引,基本是就是读几下盘的时间(几个毫秒。) 奉劝对计算机一知半解的人,多读一下算法。至于编程语言,那是个人爱好,无关大局。萝卜青菜各有所爱。
  5. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 既然做了,目标肯定是比你说的几个要做得好。
  6. M

    你能告诉我你的联系方式吗?

    你能告诉我你的联系方式吗?
  7. M

    请教关于北大汉语语料库的使用问题

    回复: 请教关于北大汉语语料库的使用问题 请查询帖子“看一眼我的语料库”。
  8. M

    请教关于北大汉语语料库的使用问题

    回复: 请教关于北大汉语语料库的使用问题 可以试试以下链接:*%2Fm}"]检索动词后面紧接着数词的句子。前提是你知道什么是正规表达式。本语料库最初也来自北大,但也许不是你说的北大汉语语料库。
  9. M

    Design of A Subtitle Corpus (MMSC) and Its Applications

    回复: Design of A Subtitle Corpus (MMSC) and Its Applications 我曾经在2003年建过一个100万句对的汉英电影字母语料。目前还能检索。未整理总量超过1000万句对。
  10. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 藏文分词标注程序我基本搞定了,标记集有一个教育部的标准(草稿?),我先凑合着用,不过尚需修订。你的语料库如何了?6万词小意思吧。我这里已经有快5万了。可惜,还是不懂藏文。
  11. M

    藏汉双语语料库

    因为去了一次西藏,回来后在不懂藏文的情况下,最近弄了一个简单的藏汉对照双语语料库,弄了一个藏文分词和标注系统。拟弄一个藏、汉、英电子词典,1000万“字”以上的藏语语料库,以及相关的分词、句法分析等规范(修改现有规范、标准或提出新规范、标准)。想在这里找找看,有没有人可以一起做点事。
  12. M

    请问~~有关检索平台搭建的问题~~~

    回复: 请问~~有关检索平台搭建的问题~~~ 说的不确切:我的语料库检索是一个自己写的100多K的小程序,不用任何其他软件。对简单的检索也就够了。 如果你是为了学习,自己写程序最好;如果是因为别人叫你做的工作,采用自由软件最简单了。
  13. M

    刘泽权《红楼梦》句对齐标注问题求解

    回复: 刘泽权《红楼梦》句对齐标注问题求解 词级对齐是可以办到的,为目前机器翻译中的一项研究。但是,自动对齐的准确率约为80%,所以人工校对是免不了的。不知道刘的句对齐效果如何,至少从laohong的网站来看,句对齐质量很差,无法在此基础上进行词对齐。
  14. M

    看一看我的语料库

    回复: 看一看我的语料库 已经给你发邮件了。
  15. M

    看一看我的语料库

    回复: 看一看我的语料库 语料比较大,只能放弃人工对齐。
  16. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 6万也许可以试试。可以机器自动标注,然后你人工校对一下。这样滚雪球,也许马上就到50万甚至200万了。
  17. M

    谁有免费的英语词频统计软件?

    回复: 谁有免费的英语词频统计软件? 我写过一个,不妨用用,不过是在dos下执行。下载地址:http://59.77.17.146/download/software/newfreq.exe。使用例子:newfreq -1 -f -v -i bnc.txt -s bnc.unigram.txt 把bnc.txt的词频保存在bnc.unigram.txt。对于500M的BNC文本语料,大约需要1分半钟。
  18. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 如果你能提供切词和标注的样本(需要有一定的量,如50万词以上),那么我可以为你解决切词标注问题。
  19. M

    看一看我的语料库

    回复: 看一看我的语料库 建设语料库需要采用合适的软件,一般是有个人版本或服务器版本。个人版本很多,服务器版本我倒是不太清楚是否有免费的,不过想来应该有。“建一个字库”是什么意思?建库技术谈不上传授,就是你必须得到相应的软件。每个软件的使用方法不同,按照软件说明手册就能建库了。很遗憾,目前我网站上的软件不是公开的。我可以把你的语料库建好放在网站上供你(以及别人)检索,不过我不能把我的服务器软件给你使用。如果只能供你检索,那恐怕是属于科研合作的范畴了。
  20. M

    看一看我的语料库

    回复: 看一看我的语料库 语料的出处为互联网。
Back
顶部