术语,特殊符号的标注问题

本文由 cathy诗雨2016-04-12 发表於 "语料库标注" 讨论区

  1. 各位老师,想请问哪一个tagger能够较好的区分文本当中出现的technical jargons/proper nouns和common nouns? 标注工具如treetagger, stanford tagger)在标注过程中遇有专有名词出现时(化学,物理,生物学科文本中),这些专业词汇也被标注成common nouns(NN)而不是NP,不知道有什么好的方法改善这个问题啊?

    谢谢大家的建议~~
     
  2. 你要标的是词还是短语?如果是短语层面,CLAWS或TreeTagger做不到,需要用到语义分析了。其实多数分析器是基于词表和术语表的,计算机要先知道哪些是术语才能正确标出来。NLP界现在很多人在研究multiword expressions (MWEs)