ICTCLAS 分词系统 用户词典

各位大神:
运行ICTCLAS 分词 结果如下:
出生/v 证明/v 自/p 填/v 单/ag
上海/ns 卷/q 高/a 考题/n 型/k

上面是运行下来的结果,和期望的效果有些差别,怎样才能提高分词的准确度?
用户词典怎么批量导入词库
m_dictCore.AddItem("新浪",'t'*256,200);
m_dictCore.Optimum();
m_dictCore.Save("./data/11.dct");
这样可以单个加入一个词,并在下次分词时能够识别,问题:我想导入一个10万的词库,该怎么导入?
下面是我批量导入的代码,可是最后结果不行?
while ( fgets(in,100,frp) != NULL )
{
printf("%s",in);
m_dictCore.AddItem(in,'n'*256,-2000);

}
m_dictCore.Optimum();
m_dictCore.Save("./data/11.dct");
 
回复: ICTCLAS 分词系统 用户词典

我觉得你的思路是对的,你再检查一下问题是否出在其他地方。
 
回复: ICTCLAS 分词系统 用户词典

根据ICTCLAS附带的文档可以判断,ICTCLAS并不主张修改核心词典,修改用户词典的调用函数应该是ICTCLAS_AddUserWord和ICTCLAS_SaveTheUsrDic(如果使用的是C++),我参照的是ICTCLAS2011接口文档,你再检查检查看看。
 
回复: ICTCLAS 分词系统 用户词典

另外,从你的调用函数来看,应该不是ICTCLAS最近的版本。ICTCLAS有多个版本,不同版本之间调用可能有些区别。
 
Back
顶部