关于用WordSmith检索的另一个问题。

yuliaoku

初级会员
如果使用WordSmith检索软件(4.0或5.0版)每隔n行的检索功能,每次检索结果不一致。

例如,在一个英语语料库中,定冠词the出现了30696次,如果在Settings勾选Random,每10个选1个,此后的5次检索出现了5个不同的结果:3095,3045,3089,2993,3080。如果继续下去也都是不同的数量。从道理上讲,应该是3069或3070行。出现这种现象是什么原因呢?

请教各位。先谢啦!
 
回复: 关于用WordSmith检索的另一个问题。

如果使用WordSmith检索软件(4.0或5.0版)每隔n行的检索功能,每次检索结果不一致。

例如,在一个英语语料库中,定冠词the出现了30696次,如果在Settings勾选Random,每10个选1个,此后的5次检索出现了5个不同的结果:3095,3045,3089,2993,3080。如果继续下去也都是不同的数量。从道理上讲,应该是3069或3070行。出现这种现象是什么原因呢?

请教各位。先谢啦!

因为是random sampling,每10个里面选1个,也就是说1到10里随便选1个,11-20里再随便选1个,并不一定每隔10个选1个。
 
回复: 关于用WordSmith检索的另一个问题。

因为是random sampling,每10个里面选1个,也就是说1到10里随便选1个,11-20里再随便选1个,并不一定每隔10个选1个。

谢谢您的回答。但是,如果是像您所说的,结果还应该是3069个。假定共有30696个索引行,每10行里随机选一个,则:

数字段 == 随机数 == 累计
1-10 == 4 == 1
11-20 == 12 == 2
21-30 == 26 == 3
31-40 == 35 == 4
41-50 == 49 == 5
51-60 == 52 == 6
...
以此类推,最终结果应该是3069。因为无论随机还是不随机,都要从每10个索引行中选出一个。
 
回复: 关于用WordSmith检索的另一个问题。

下面这段内容引自WordSmith 4.0和5.0的帮助文件:

"at random" is a feature which allows you to randomise the search. Here Concord goes through the text files and gets the 100 entries by giving each hit a random one-in-three chance of being selected. To get 100 entries Concord will have found around 250-350 hits. You can set the randomiser anywhere from 1 in 2 to 1 in 1,000.

其中不好理解的是“To get 100 entries Concord will have found around 250-350 hits.”这句话。说明一下,如果勾选了random,Concord的默认值是3个里面选1个。

请大家帮助理解一下。

谢谢!
 
回复: 关于用WordSmith检索的另一个问题。

谢谢您的回答。但是,如果是像您所说的,结果还应该是3069个。假定共有30696个索引行,每10行里随机选一个,则:

数字段 == 随机数 == 累计
1-10 == 4 == 1
11-20 == 12 == 2
21-30 == 26 == 3
31-40 == 35 == 4
41-50 == 49 == 5
51-60 == 52 == 6
...
以此类推,最终结果应该是3069。因为无论随机还是不随机,都要从每10个索引行中选出一个。

不好意思,下午没理解你的问题就匆忙回答了,
事实上,不光光是每n行选1个会出现不同的检索结果,哪怕显示所有concordances,每次检索的结果都不会完全相同。打个比方说,我刚才在自建的语料库中检索China一词,同样的setting,同样的语料,第一次检索出1500多条,第二次就变成1492条了。concordances数量相差几条,不会影响分析结果。
 
回复: 关于用WordSmith检索的另一个问题。

不好意思,下午没理解你的问题就匆忙回答了,
事实上,不光光是每n行选1个会出现不同的检索结果,哪怕显示所有concordances,每次检索的结果都不会完全相同。打个比方说,我刚才在自建的语料库中检索China一词,同样的setting,同样的语料,第一次检索出1500多条,第二次就变成1492条了。concordances数量相差几条,不会影响分析结果。

据我的实验,如果仅仅是检索某个词在一个语料库的所有索引行,从未出现过检索结果不一致的情况,仅在如设定了random情况下才会出现不一致的情况。
 
Back
顶部