求研究伙伴

本人目前正在研究语料的适应性问题,即是:在crf++环境下,假如用msr的训练语料去预测msr的测试语料,那么结果肯定是非常好的(使用较好模板的情况下),但是如果用msr的训练语料去预测pku的测试语料,结果会是如何呢?很差!那么有没有什么方法可以使得用msr的训练语料去预测msr的测试语料获得的结果和预测pku的测试语料获得同样好的效果呢?我的qq:251325951
 
Last edited:
回复: 求研究伙伴

我个人觉得,第一,两类语料的性质(如语体、文体等;规模、大小等)不同,造成用一类语料训练的模型,对另一类语料进行测试,结果很差。第二,MSR标记集和PKU的标记集不同,这样你的模板中如果利用了词性等信息,也会导致效果差距很大。
 
回复: 求研究伙伴

你可以先试着对标记集进行转换,再把实验结果提上来讨论。
或者扩大训练语料规模。不过我猜想你除了这MSR和PKU,也没有其他好的训练语料了。
 
回复: 求研究伙伴

并不是所有扩大训练语料的规模就能提高预测结果的,相反,如果语料扩大的不适当反而会大大降低预测性能!同时,即使训练语料和测试语料的分词规则是一样的,你就是再扩大训练语料的规模,其预测性能几乎没什么提高!反而是浪费了大量的计算资源和时间。谢谢
 
回复: 求研究伙伴

你说的有道理。但是你没有实验数据说明,到底多大的训练语料就达到了最佳的训练效果。
bakeoff用于训练的语料规模,我个人认为,是不够的。
 
Back
顶部