为什么两种检索软件得出的词次不一样?

我用Wordsmith3.0和Antconc3.2.1w分别对同一语料库进行检索,得出的Wordlist里词次、词型等都不一样,这是为啥呢?该取信哪个呢?谢谢!
 
回复: 为什么两种检索软件得出的词次不一样?

这种情况很常见。不过很少有人去过问为什么?
 
回复: 为什么两种检索软件得出的词次不一样?

这种情况很常见。不过很少有人去过问为什么?
呃,就是说我这个问题没什么意义?
但是像计算MI值时不是需要语料库的总词次吗,如果词次不同的话,会不会影响计算结果呢?
 
回复: 为什么两种检索软件得出的词次不一样?

不是的。正好相反,我觉得这种现象应该引起我们的关注。
 
回复: 为什么两种检索软件得出的词次不一样?

两种软件的算法不一样吧!比如:有的可能会把 I'm 当做两个token 还有的会把它当做一个token
 
回复: 为什么两种检索软件得出的词次不一样?

我曾经就此问题请教过antconc的作者Dr. Anthony,他的回复是:在香港也有许多研究者提出过这个问题,差异的原因是不同的软件对词的定义不同而产生,antconc直接把阿拉伯数字和符合等直接排除了,而词匠却没有排除。
 
回复: 为什么两种检索软件得出的词次不一样?

写错了,是把阿拉伯数字和符号等直接排除了
 
回复: 为什么两种检索软件得出的词次不一样?

Numerals are merged into the symbol # in the wordsmith wordlist.

我曾经就此问题请教过antconc的作者Dr. Anthony,他的回复是:在香港也有许多研究者提出过这个问题,差异的原因是不同的软件对词的定义不同而产生,antconc直接把阿拉伯数字和符合等直接排除了,而词匠却没有排除。
 
Back
顶部