Taggers" PK: which one outperforms others?

ineedgerf

普通会员
我顺着本站提供的链接,下载了TAIParse Part-of-Speech (POS) Tagger。结果如下:

And/CC Durbeyfield/UNKNOWN lay/UNKNOWN back/UNKNOWN comfortably/RB on/IN
[ the/DT grass/NN ]
./. '/'

这个结果和 TOSCA/LOB 相比:

<w CC>And</w> <w NP>Durbeyfield</w> <w VBD>lay</w> <w RP>back</w> <w RB>comfortably</w> <w IN>on</w> <w ATI>the</w> <w NN>grass</w><w SPER>.</w>

我们发现其准确率差很多。

不过 TAIParse Part-of-Speech (POS) Tagger 的功能多了一些,但愿以后的版本能好一些。

推荐 TOSCA/LOB 的原因:

1)基于 DOS;
2)可以批处理;
3)准确率高;
4)允许其它码的存在

等。

WinBrill 是非英语版本,里面的规则虽然可以编辑,但是也很麻烦,虽然是个“基于规则”的好东西,但还是不如 TOSCA/LOB。

其它 TAGGERS 没有使用过。

QTag 也比较好用。

有 CLAWS 能分享就更好了!它现在有了 Windows 版本了。
 

xujiajin

管理员
Staff member
ineedgerf, could you be kind enough, with your expertise, to prepare a more detailed survey of the taggers available? Thank you in advance for your help!
 

seanxpq

corpus explorer
都说认识语料库检索工具只是入门,会做标注才是高手,我要向各位高手多多请教、学习。
 

armstrong

高级会员
回复:Taggers" PK: which one outperforms others?

以下是引用laohong
好呀,来点实际的。
 

ineedgerf

普通会员
TOSCA/LOB:

1)它有tlbtag批处理文件。原始的(即从开发者服务器上下载后的)批处理文件要求用户文件名后缀为.raw。这个可以更改;
2)注意另一个批处理文件tlbset.bat中的路径,应和其它一致;
3)注意tlbsys.cfg文件,里面也有一个路径;
4)它的输出格式是列显示的,如需要上面楼主的格式,需要一系列的转换。CLAWS有专门的转换程序,我们可以使用普通的文本编辑器完成;
5)在处理大量文件的时候,需要编写另外的批处理文件;
6)好像在xp下不工作。

大家稍微耐心一点儿,就会知道这个东西的使用方法了。
 

xiaoz

永远的超级管理员
Staff member
回复:Taggers" PK: which one outperforms others?

CLAWS4 applying the BNC C7 tagset:

<s>
And_CC Durbeyfield_NP1 lay_VVD back_RP comfortably_RR on_II the_AT grass_NN1 ._.
</s>

TOSCA/LOB:

<w CC>And</w> <w NP>Durbeyfield</w> <w VBD>lay</w> <w RP>back</w> <w RB>comfortably</w> <w IN>on</w> <w ATI>the</w> <w NN>grass</w><w SPER>.</w>

The most noticeable difference is that CLAWS tagset is more fine-grained - e.g. different kinds of verbs (be, have, do, lexical verbs etc) and different uses of verbs (e.g. be, do as main verbs and as auxiliary verbs).
 

ineedgerf

普通会员
仔细观察了一下几个 taggers 的情况,还是觉得 TOSCA/LOB 的
优点多一些,其中多数在上面的帖子上说过了。
希望大家对它做进一步研究。
CLAWS 有 online tagging service。
TOSCA/LOB 的一些错误可以通过一些方法解决,如把 can 标注为
其它码等。


[本贴已被 作者 于 2005年12月21日 23时06分39秒 编辑过]
 

ineedgerf

普通会员
The site has been there for years, and all I know is that it is
difficult to log on. Just now, I tried many times, but failed.
So ... .

[本贴已被 作者 于 2005年12月30日 22时46分03秒 编辑过]
 
顶部