请教:小型语料库的建设问题

我想建立一个小型的英文小说语料库,现在已经搜集了一些小说,并以txt文档保存,有两个问题要请教老师们:
1. 下面需要什么程序?需呀什么软件?
2. 想检索VPN(动词+介词+名词)这一结构,用Antconc3.2.1检索怎样写表达式?
我已经自己试了都检索不出来,苦闷中。。。期待您的解答
 
回复: 请教:小型语料库的建设问题

我想建立一个小型的英文小说语料库,现在已经搜集了一些小说,并以txt文档保存,有两个问题要请教老师们:
1. 下面需要什么程序?需呀什么软件?
2. 想检索VPN(动词+介词+名词)这一结构,用Antconc3.2.1检索怎样写表达式?
我已经自己试了都检索不出来,苦闷中。。。期待您的解答

1. 这要看你想做什么
2. 这个的前提是你的语料已经有POS附码,比如用CLAWS或Tree Tagger都可以,把每个词标记出POS,然后才能检索出来VPN结构
 
回复: 请教:小型语料库的建设问题

我把生语料用重新用那个免费网站用 C7tagset重附码了,然后用您的表达式代入检索,没有结果 不知道怎么搞的 不过谢谢大家了 还是学到了东西:)
 
回复: 请教:小型语料库的建设问题

VVD PRP NN0

介词码不是PRP,没有PRP这个码。
参见http://ucrel.lancs.ac.uk/claws7tags.html

\S+_VVD\s\S+_I\S+\s\S+_N\S+ 检索前选中Regex
按照你的要求表达式应该如上,表示“实义动词过去式+介词+名词”,但是很可能搜不到你要的结果,或者只搜到一部分。原因是你并未完全弄清楚你要检索的是什么?

我想,你要检索的是短语动词。

你的提问有以下几个问题:
1、为什么是VVD,即为什么是过去式,而不可能是原型、第三人称单数或过去分词?
2、小品词是视作副词的,因此在PoS码里不作介词处理;
3、名词前往往有限定词和修饰语,而不一定直接就是名词。名词短语的表达式这一部分很不容易写好。

具体表达式,不给你答案,你可根据上面的提示和http://ucrel.lancs.ac.uk/claws7tags.html网站,好好摸索一下。作为一个学习的过程。不应坐等答案。
 
回复: 请教:小型语料库的建设问题

1. 这要看你想做什么
2. 这个的前提是你的语料已经有POS附码,比如用CLAWS或Tree Tagger都可以,把每个词标记出POS,然后才能检索出来VPN结构

请教各位老师,CLAWS 和 Tree Tagger 在哪下载?有免费的吗?:)
 
回复: 请教:小型语料库的建设问题

CLAWS 提供网上免费赋码,但有词数的限制。别的 POS Tagger 可以参考 Stanford POS Tagger,基于 Java 环境,也是免费的。
 
Back
顶部