求助:正则表达式在PowerGREP的使用

[FONT=楷体][FONT=宋体]7月28-30日的语料库应用(基础班)中刚了解一些语料库的基础知识,非常感兴趣,继续探索中。请问:我利用Patternbuilder得到的正则表达式\S+_N\w+\s\S+_WP\s为什么在PowerGREP中查不到任何匹配语料?文件是研修班光盘中的data/NS/datebase1/tagged.渴望您的指导!
[FONT=宋体][/FONT]
[/FONT]
[/FONT]
 
回复: 求助:正则表达式在PowerGREP的使用

[FONT=楷体][FONT=宋体]7月28-30日的语料库应用(基础班)中刚了解一些语料库的基础知识,非常感兴趣,继续探索中。请问:我利用Patternbuilder得到的正则表达式\S+_N\w+\s\S+_WP\s为什么在PowerGREP中查不到任何匹配语料?文件是研修班光盘中的data/NS/datebase1/tagged.渴望您的指导![/FONT]

[/FONT]

我没参加会议,没有你这个语料,只能猜测如下:

[FONT=宋体]\S+_N\w+\s\S+_WP\s是TREETAGGER的赋码,表示Noun + Wh-pron,由于你的语料容量小,不一定含有这种结构,所以可能会查不到。[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]DT mama_NN ,_, that_DT proven_JJ whore_NN who_WP was_VBD now_RB in_IN a_DT brothel
to_TO realise_VV that_IN any_DT woman_NN who_WP aimed_VVD to_TO share_VV his_PP$
P was_VBD to_TO meet_VV Irish_JJ women_NNS who_WP ,_, unable_JJ to_TO stand_VV the_
We_PP found_VVD some_DT workers_NNS who_WP deliberately_RB controlled_VVD le
_NP was_VBD an_DT influential_JJ writer_NN who_WP developed_VVD a_DT philosophy_NN
Those_DT writers_NNS who_WP share_VV Parker_NP 's_POS view_NN
[/FONT]

[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]另外,如果可能,请把光盘中的Tools名称在下面列一下,好让大家知道许博士他们又弄了些什么新的秘密武器啊。[/FONT]
 
回复: 求助:正则表达式在PowerGREP的使用

[FONT=宋体]thanks a lot!问题已经解决了。不过现在的新问题是在CLEC文本中,总是有错误标注,如 the [wd5,-1] Qingdao Daily ect [fm1,-] . I am going to tiried [fm1,-] to be a suitable man in the future job. [/FONT]
我怎样才能把这些错误标注去掉,再把这些文本用CLAWS赋码?

tools里的工具有:检索工具,标注工具,统计工具,DDL工具,文本处理。
检索工具:AntConc, AntwordProfile, Colligator2, Collocator1.0, Patcount,等等。
标注工具:metadata-encoder, tree-tagger 2,deTagger_en, BFSU_Standford,等
统计工具:Filelister, Document to text converter, sub-corpus-creator, PowerGREP,等等。
太多了,我也不懂,您可以找许博士询问吧。
 
回复: 求助:正则表达式在PowerGREP的使用

[FONT=宋体]thanks a lot!问题已经解决了。不过现在的新问题是在CLEC文本中,总是有错误标注,如 the [wd5,-1] Qingdao Daily ect [fm1,-] . I am going to tiried [fm1,-] to be a suitable man in the future job. [/FONT]
我怎样才能把这些错误标注去掉,再把这些文本用CLAWS赋码?

tools里的工具有:检索工具,标注工具,统计工具,DDL工具,文本处理。
检索工具:AntConc, AntwordProfile, Colligator2, Collocator1.0, Patcount,等等。
标注工具:metadata-encoder, tree-tagger 2,deTagger_en, BFSU_Standford,等
统计工具:Filelister, Document to text converter, sub-corpus-creator, PowerGREP,等等。
太多了,我也不懂,您可以找许博士询问吧。


你不是有detagger吗?用它就可以去掉[xxxxxxx]里面的内容了。
将CLEC进行赋码会很多错误,用处不大。
 
谢谢您的回复

你不是有detagger吗?用它就可以去掉[xxxxxxx]里面的内容了。
将CLEC进行赋码会很多错误,用处不大。


非常感谢您的多次帮助,我是新手就是比菜鸟还要菜鸟的那种。您说“将CLEC进行赋码会有很多错误,用处不大”。我很赞同您的观点,但是SWECCL里的文本都用CLAWS赋码了,我想这个语料库里也应该有一些错误吧。再说,我想了解大学英语四、六级作文中的语言特征,只有进行赋码了吧?不赋码也可以检索吗?感谢大师的帮助。
 
回复: 谢谢您的回复

非常感谢您的多次帮助,我是新手就是比菜鸟还要菜鸟的那种。您说“将CLEC进行赋码会有很多错误,用处不大”。我很赞同您的观点,但是SWECCL里的文本都用CLAWS赋码了,我想这个语料库里也应该有一些错误吧。再说,我想了解大学英语四、六级作文中的语言特征,只有进行赋码了吧?不赋码也可以检索吗?感谢大师的帮助。

SWECCL是英语专业学生的作文,水平要高些。POS tagging后准确度相对也高些。
CLEC含有四六级和英语专业的作文,四六级的水平当然差点。

你说的语言特征包括哪些呢?词汇搭配类不需要pos tagging, 涉及到类联接和句法的研究当然要POS tagging才行。
 
回复: 谢谢您的回复

SWECCL是英语专业学生的作文,水平要高些。POS tagging后准确度相对也高些。
CLEC含有四六级和英语专业的作文,四六级的水平当然差点。

你说的语言特征包括哪些呢?词汇搭配类不需要pos tagging, 涉及到类联接和句法的研究当然要POS tagging才行。
您好,万分感谢您的回复。我想检索四六级作文中关系从句的使用情况,如
名词+who/which/that/whose/when/where/why引导的限制性关系从句、相关的非限制性关系从句的使用情况
[FONT=宋体]例如,我可以利用正则表达式:[/FONT]\S+_N\w+\s\S+_PNQS\s检索出WECCL中专业学生的who(在从句中做主语) 引导的关系从句使用频数,而在CLEC中不能检索,因为这个库没有CLAWS赋码,只有错误标注。
不知我的想法是否可行?期待大师的指点。
 
Back
顶部