SegmentAnt 1.10 (三种中文分词+用户字典)

本文由 fzhuo2015-07-22 发表於 "语料库标注" 讨论区

  1. 前段时间我联系了Professor Anthony Laurence, 请他把ICTCLAS和Jieba分词器加到他原先的SegmentAnt里面去, 他同意并很快做好发在他的网站上。虽然我也花了一些时间帮忙找Python文件和测试, 但还是可能有些别的问题,若你有兴趣,请试用。假如发现问题或有别的建议,请同他联系。谢谢!

    http://www.laurenceanthony.net/software.html
     
  2. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    赞一个!
     
  3. armstrong

    armstrong 高级会员

    试了下,好像SegmentAnt中的ICTCLAS不能工作,但Jieba可用。
     
  4. 已同 Laurence Anthony 联系,可能打包时出错。其实,自用字典可能有问题, 或许是Jieba的问题,它可能会调用内置字典,似乎长词条有优先权,虽然自用字典没含这些长词条。通过比较,我发现本单位的程序员前些年单独为中文老师编了Windows DOS 的结巴(Jieba)工具,也会如此。
     
  5. 今年十月份我跟Laurence确认了这个bug,他迅速发布了1.1.1版,此问题已解决。