求寻适合藏文检索的语料库软件

回复: 求寻适合藏文检索的语料库软件

6万也许可以试试。可以机器自动标注,然后你人工校对一下。这样滚雪球,也许马上就到50万甚至200万了。

好的,我得尽快把词性标注完然后和你联系。你知道这标注体系还是我自己搞的,藏文没有现成的标记集。谢谢你。
 
回复: 求寻适合藏文检索的语料库软件

好的,我得尽快把词性标注完然后和你联系。你知道这标注体系还是我自己搞的,藏文没有现成的标记集。谢谢你。

藏文分词标注程序我基本搞定了,标记集有一个教育部的标准(草稿?),我先凑合着用,不过尚需修订。你的语料库如何了?6万词小意思吧。我这里已经有快5万了。可惜,还是不懂藏文。
 
回复: 求寻适合藏文检索的语料库软件

中央民大也做了一个,词库的量也不错,可惜其中正规的词比较少,影响分词正确率,其实程序本身做得还是不错的。不知道你的这5万词都是规范词?应该让人看看,很希望你能成功!
 
回复: 求寻适合藏文检索的语料库软件

对了,青海师大也做了一套,正确率高于中央民大的,可是他们的词库中少了几个分类,还不是很全,所以有些机构名和书名还是被切割了,破坏了完整性,有点可惜。我不知道这里这么直白地说这些对不对,如果不合适请原谅!
 
回复: 求寻适合藏文检索的语料库软件

既然做了,目标肯定是比你说的几个要做得好。
 
Back
顶部