搜寻结果

  1. I

    UAM CorpusTool: Text Annotation for the 21st Century...and its free

    回复: UAM CorpusTool: Text Annotation for the 21st Century...and its free 今天研究了一下mmax(感谢laolong不懈的推荐), 发现它没有在GUI提供standoff annotation到inline annotation的转换,参照其提供的samples, 一个可能的解决方案应当是定制自己的xslt(充分利用MMAX2.jar包中的/org/eml/MMAX2/discourse/下的文件,尤其是MMAX2DiscourseLoader.class文件提供的api)。
  2. I

    The Road to Unix-like systems

    回复: The Road to Unix-like systems 何不尝试直接去生产锐捷的公司主页去下载相应的版本或直接跑去网络中心咨询,肯定会有热心人士来解决你的问题的。我们学校好一点,按照安装提示在Linux下安装锐捷没有遇到任何问题。 普及Linux/BSD确实不易,推广Linux的原清华的王垠甚至还走火入魔,不得不远走异国他乡(我要感谢他,是他的文章让我对Linux产生了足够的兴趣)。不过大家抱一种平常心就好了,因为Those who ignore the history are condemned to repeat it, 大家迟早会意识到Linux(or...
  3. I

    The Road to Unix-like systems

    回复: The Road to Unix-like systems 再来一本中国人自己写的入门教材,网上评议很不错(我自己翻了一下觉得还真不错),各高校图书馆也该早买了。 《鸟哥的Linux私房菜基础学习篇》,作者:鸟哥 (一个台湾帅哥) ,出版社:人民邮电出版社, ISBN:7115162212。不过作者已把这本书放在自己主页上了,有人评议简体版经过加工没繁体版好看(很多口头语被改成正统语言了,因此失去了鲜活性),喜欢生动活泼的气氛中学习的人可以直接去其网站好了http://linux.vbird.org/linux_basic/。
  4. I

    当代汉语翻译小说语料库(CCTFC)怎么用啊

    回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊 laohong误解了,我只是说分词是中文语言处理的基础,没有它的改良,其他一切依存它的应用都会受到制约。你的检索程序在汉语界是有开创性的,不用我怀疑。本人不才,指点江山还可以,示范就不敢当了。我发现中文检索如果要求精度的话(即便是不带词性的),没有什么好办法可以撇开分词而独立存在,这也是困惑我的地方。
  5. I

    当代汉语翻译小说语料库(CCTFC)怎么用啊

    回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊 问题开始有趣了,我可能没看懂laohong的一部分内容,因为laohong原来说的是“和搜索engine的功能好坏无关”,但laohong后来也说了"迅速准确地",我对“准确”的定义是基于汉语语义的,原文的,laohong的定义可能是基于从数据库连接那一刻算起的准确,所以我们会出现意见分歧了。我是这样理解的:检索程序是依赖分词结果的,如果分词分对了,那么检索自然是顺风顺水...
  6. I

    自然语言理解发展历史与方向有影响力的综述文章推荐

    回复: 自然语言理解发展历史与方向有影响力的综述文章推荐 诱导我们注册的,不过是好文章。
  7. I

    当代汉语翻译小说语料库(CCTFC)怎么用啊

    回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊...
  8. I

    当代汉语翻译小说语料库(CCTFC)怎么用啊

    回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊 多谢提醒,都怪自己懒。 分词的准确率按照大众(不是语言学家)的要求来说还能接受,但针对语言学家的汉语搜索引擎的质量受分词影响太大了啊,不知laohong怎么会说无关呢?搜索词分空格不分空格其实就是在人工分词。然后去匹配数据库里已分好了词的内容啊。 顺被说一下ictclas的商用版, xu博提到过的。我在ictclas原作者网页看到的一则报道是i说ctclas 3.0版和原版...
  9. I

    刘泽权《红楼梦》句对齐标注问题求解

    回复: 刘泽权《红楼梦》句对齐标注问题求解 唉,江湖多恩怨。
  10. I

    [GOOD NEWS] MMAX Annotation Tool now FREE

    回复: [GOOD NEWS] MMAX Annotation Tool now FREE 看了这个贴才知道laohong为什么对MMAX那么情有独钟了,1500欧啊(just a joke)!不过standoff标注应该是今后的趋势,MMAX这个方向找对了。
  11. I

    当代汉语翻译小说语料库(CCTFC)怎么用啊

    回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊 好东西,谢谢。 1。界面应该参照了Mark Davis的吧,很清爽;中文分词确实是中文检索的老大难问题,使用N-gram的方法召回率是100%,,但噪音信息又太多了,准确率又下降了。 2。请教对结果排序的原则,是按拼音、笔画、频率、unicode编码还是其他?
  12. I

    严重推荐至善句库: 英汉-汉英翻译好助手

    回复: 严重推荐至善句库: 英汉-汉英翻译好助手 找"range from to",结果包含了以下例句,看来可能使用了类似Sphinx的索引技术;用户界面酷似Google。 In addition, matings between monokaryotic isolates obtained from the 24 strains were carried out to investigate the number of A and B factors present in a range of commercially culitivated strains colleeted...
  13. I

    是否有“上面xml显示;下面纯文本显示”的编辑器?

    回复: 是否有“上面xml显示;下面纯文本显示”的编辑器? 你指的那篇文章是薛学彦的吧,那你找的是dreamweaver,但他处理的是html, 你可能需要做一下转换
  14. I

    skewness怎么计算?

    回复: skewness怎么计算? The following info is from wikipedia. However, I am not quite sure whether it is pertinent to your question. For a sample of n values the sample skewness is
  15. I

    Linux下的语料处理

    回复: Linux下的语料处理 GNU/Linux doesn't even need a GUI to run. KDE (4?) might be buggy, but you can try aother window manager, say, GNOME or XFCE, which typically consumes much less computer resources. GNU/Linux is all about choices. Don't get discouraged by some misbehaving applications running on it.
  16. I

    论坛常见问题集Getting Started with Corpus4U

    回复: 论坛常见问题集Getting Started with Corpus4U 内容很好,做出的文档也很漂亮(LaTex的吧?),如果能加上Linux/Unix下的一些对应常识就更好了。 比如ArthurW在http://www.corpus4u.org/showthread.php?t=5371提到的一些东西。
  17. I

    Prof. Gerald Nelson

    回复: Prof. Gerald Nelson thanks for the info
  18. I

    Linux下语料加工流程

    回复: Linux下语料加工流程 <s></s>标记 是在第三步这一行代码产生的: print "<s> $s </s>\n"; 当初目的主要是为了方便人工校对自动句子切分的正误。如果不需 要, 可以将代码改为: print "$s\n"; 当然,第4步相应地方就也要改了。
  19. I

    Linux下语料加工流程

    新年快到了,分享一下语料预处理的心得,这里只进行了句子级别的简易加工,不对之处欢迎批评指正。 Linux下语料加工流程 1。 从PDF截取txt文件,存储为chapter1(注意去掉文件内的空行) 2。 在每一行尾加一个空格并去Linux换行符,为句子分割作准备 sed 's/$/ /g' chapter1 > chapter1_ perl -pe 'chomp' chapter1_ > chapter1_chomped 3。进行句子分割 #!/usr/bin/perl #filename: splitsentences.pl...
  20. I

    非常好的OED corpus不能用了。

    回复: 非常好的OED corpus不能用了。 看来今后建设语料库遇到的法律障碍会越来越大,大家都要留神了。
Back
顶部