搜寻结果

  1. M

    看一看我的语料库

    回复: 看一看我的语料库 你要在我的网站上建吗?你能提供语料?
  2. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 既然antconc不行,用别的就是了。实在不行,你把语料库给我,我挂上去不就可以了?
  3. M

    看一看我的语料库

    回复: 看一看我的语料库 忙了2天,终于把藏文、维吾尔文、蒙古文的检索功能加上了(http://59.77.17.146/corpus_cn2.html)。演示语料很小。这些语料可真不好找啊,那个蒙古文,花了我半天时间才找到1段unicode编码的!国内的网站上的蒙古文无法复制,也没花时间去钻研,不明白他们为什么不采用unicode呢?谁有就给我一些。另外,韩文,日文的双语检索也将不久推出一个演示。明早给本科生吹一下这个网站架设的一些技术。 注意:每次只能选择一个少数民族语料。另外,firefox不能支持蒙古文的竖写。你的系统必须带有相关字体。这些在windows...
  4. M

    求寻适合藏文检索的语料库软件

    回复: 求寻适合藏文检索的语料库软件 忙了一天,终于把藏文检索功能加到我的语料库了。网址:http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试(或者随便一个藏文字母)。注意这个语料库才30K,可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器,以得到居中对齐的效果,ie有bug。为了正确显示藏文,要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示,效果还行。当然,肯定有不少问题(例如对齐问题),因为我不懂藏文。如果有什么问题,给我留言。
  5. M

    我这个就是垃圾。

    我这个就是垃圾。
  6. M

    看一看我的语料库

    回复: 看一看我的语料库 1. 关于去掉检索返回500个或20个结果的限制问题。目前你必须具有固定IP才行。等以后再开通基于口令的简单认证方式。 2. 检索速度慢的问题,是有待改进,最近没顾上。 3. 演示版提供了5个专业(非演示版暂时有20多个专业)。
  7. M

    敬请各位高手出谋划策!

    回复: 敬请各位高手出谋划策! that's why i had to write my own program to count the word frequencies for the BNC corpus.
  8. M

    看一看我的语料库

    回复: 看一看我的语料库 有什么具体要求你就说吧。
  9. M

    看一看我的语料库

    回复: 看一看我的语料库 老洪对tiger这么感兴趣啊,呵呵,羡慕ing。不过我若不来,您岂不是喝不到,那么这红楼梦机器英汉词典岂不是难产。我决定到您老网站上牵羊去...
  10. M

    看一看我的语料库

    回复: 看一看我的语料库 就凭这点小儿科,你要申请基金我来评审就不批。这在技术上,弄个简单的词典,不是很难的事情,当然要做好,涉及到分词、新词(词组)识别等问题,还是很不容易。翻译和专业也有关系,目前的语料库来源比较杂乱,不太好弄。当语料库规模有一两千万句对的时候,提取词典需要消耗大量的计算资源(你如只有2G内存就不要试了)。不过我对那些名家小说的翻译比较感兴趣,比如从红楼梦双语语料库中自动提取的翻译词典可能不少人会看一看。欢迎各位大侠协助提供相关语料库。
  11. M

    看一看我的语料库

    回复: 看一看我的语料库 增加从双语语料库中抽取词典功能。目前尚在测试中,应该很久才会推出。你可以选择“XMUS电影字幕英汉双语语料库”,输入检索词“狗”,然后你就能看到“狗”在该语料库中的翻译的大致统计数据,不一定正确,仅供参考。
  12. M

    看一看我的语料库

    回复: 看一看我的语料库 忘了说了,对其中的3个语料库(人民日报标注语料、全唐诗、全宋词)是有正规表达式检索功能的,只是要用{}括起来。比如说你要看看古人爬了什么山,可用{登.山}查查。
  13. M

    great! what courses do you teach?

    great! what courses do you teach?
  14. M

    看一看我的语料库

    回复: 看一看我的语料库 看了log,才发现有人写程序于22日、23日下载整个语料库。于是修正了软件,原来开放的某些功能现在只对熟悉用户开放。
  15. M

    看一看我的语料库

    回复: 看一看我的语料库 谢谢xusun575的建议。回答如下: 1.1 1.2 我们会做一定改进,请假以时日。 1.3 有些语料,因为收集的原因,没有出处,无法标注来源。但是人民日报和解放日报语料都有出处,会适当开放有关信息。 目前暂时没有在收集新的语料。如果有C友愿意贡献合适的XML标注的语料,我们可以返回更多信息。目前的检索软件和有些网站在功能上的确差很多。毕竟是一个100K的小程序,请大家原谅。
  16. M

    you're using an internal IP address that cannot be authorised. Can you please tell me your real...

    you're using an internal IP address that cannot be authorised. Can you please tell me your real name?
  17. M

    看一看我的语料库

    回复: 看一看我的语料库 你可以看到,我的语料库都比较陈旧,您的新词语可能无法在我的语料库中找到。要检索“彩吧”,就直接输入“彩吧”。但是,检索结果可能不是您期望的,因为,它实际检索的是两个相邻的字,而不是一个双字词。
  18. M

    中日语料库

    回复: 中日语料库 你可以参考一下http://59.77.17.146/e.html.这个网站的语料检索比较简单,但是速度还可以。如果你想做成这样的,可以和我联系。
  19. M

    看一看我的语料库

    回复: 看一看我的语料库 自动标注,运行一下软件就行了。人工校对,我没有那么多学生。况且北大做了很多标注工作。
  20. M

    看一看我的语料库

    回复: 看一看我的语料库 在此先行谢过!
Back
顶部