请教如何在检索结果中进行进一步检索

我想对clec中的st3按分数段分组,然后检索出这个分数段内的某种错误数量。问题是,第一步好做,第二步怎么操作?因为第二步是在第一步的基础上进行的,我不知道怎样保存第一步检索出来的所有作文。请高手点拨。谢谢
 
回复: 请教如何在检索结果中进行进一步检索

CLEC 里的语料并没有按照通用语料库那样把每篇文章单独存成一个文件。为了便于检索和处理,最好自己先把st2,st3,st4,st5,st6等分别分切成独立成篇的小文件,比如st3就可以分成1317个。这样检索起来就容易多了。

关于如何切分,可以参见:怯怯地问个低级问题
http://forum.corpus4u.org/showthread.php?t=3020
 
回复: 请教如何在检索结果中进行进一步检索

我已经切分过了,并且检索出了各分数段的作文,比如在1317个st3中检索<score 8>/<score9>,共检索出193个concordence lines, 可是现在的问题是如何保存这193个source text, 以便在这些文档中检索出cc1的数量
谢谢laohong
 
回复: 请教如何在检索结果中进行进一步检索

我想应该不是记录下这些文档的文件名,然后再choose texts时手工选择吧?
 
回复: 请教如何在检索结果中进行进一步检索

看你是用什么作第一次检索的。如果没有搞错的话, 你的第一次检索是要确定哪些文本是score8或9的,有了这个答案,第二次检索时只需选择这些文本去检索即可。这样的话,第一次检索就没必要使用WordSmith等, 这里以SCORE 8在EditPlus里检索为例:

打开EditPlus, 敲Search, Find in Files, 在Find What 里填入 <SCORE 8>,在File Type里填入*.*,在Folder里选择到你分切好的那个文件夹,敲Find, 就会得到结果,在下面的Output里可以看到列表,右键敲结果,选取Copy All就可以复制出去编辑整理得到一个score 8文本的清单。有了这个清单,二次检索只需调用这些文件即可。也可以把这些文件放到一个新文件夹里,这样就有了一个SCORE 8的subcorpus。
 
回复: 请教如何在检索结果中进行进一步检索

laohong总是能及时耐心的解决菜鸟的问题,真是太感动了!
我的错误就是用了wordsmith 作了第一次检索
 
回复: 请教如何在检索结果中进行进一步检索

You can use the "favourite texts" function in WordSmith. First "save favourites" when you do the first round of concordance; and then "get favourites" later on.

我想应该不是记录下这些文档的文件名,然后再choose texts时手工选择吧?
 
回复: 请教如何在检索结果中进行进一步检索

其实有很多方法达到你的目的, 如果你只是在第一次搜寻的结果上做简单的二次搜索,xiao的办法就很有效。

不过,生成subcorpus会更有利于多次搜索和深层次分析。另外,如果你用WS4或5,第一次搜索的concordances的下面有个filenames按钮,里面其实就是搜索结果所在的文件列表。这样就不需要用EditPlus去得到文件列表了。
 
回复: 请教如何在检索结果中进行进一步检索

首先谢谢laohong和xiaoz两位博士的答复。

可是,据我所知,ws的 save favourites 保存的是前一轮检索的的文档啊,比如在st3中的1317个texts检索<score 8>/<score9>, 如果save favourite的话,保存的还是这1317个文档啊

另外,laohong,为什么我用editplus时,copy all 得道的结果有的有内容,而有的只是文本标头呢?

还有,用wordsmith的filenames只得到文件名的列表,还是不能检索啊
 
回复: 请教如何在检索结果中进行进一步检索

你说的对,WordSmith的bug:存下来的favorite实际上也是全部的。

EditPlus得到的结果里的问题是你的文本换行导致的, 如果你不知道如何处理,需要一些时间的,建议还是用WordSmith的filenames来得到文件名的列表。然后,手工把这些文件复制到新文件夹里生成subcorpus进行检索。
 
回复: 请教如何在检索结果中进行进一步检索

请问xiaozi, the "favourite texts" function in WordSmith,我怎么找不到呢?它在哪个目录下呢?
 
Back
顶部