请问大家遇到类似情形该怎么办?

hancunxin

Moderator
本人最近在利用WECCL做totally作形容词增强语时的语义韵研究时候,发现了以下这种情况。请参考附图。

图中可以清楚的看出totally tired of 的索引行有很多雷同,仔细查看语境后发现,这些作文的前两句基本上都是“As is know to all of us, nowadays, senior high school students are totally tired of various kinds of examinations. It is generally agreed that this kind of examination system has destroyed students ' creative thinking abilities and hindered their all-round development.”
很显然这是写作中的导言部分,但是被学生重复引用在作文当中。

据笔者调查,totally作形容词增强语在WECLL中共有69个例子,其中totally tired of 就有20例。且这个二十例基本雷同,在统计上来说没有什么意义。我认为这部分语料是语料库中的垃圾语料,它会误导我们对中国学生某些英语现象的理解和认知。比如,如果某个研究者想做个中介语的对比研究,研究中国学生是否会过多使用be tired of doing sth 这个词块时,以上这些语料是否会对他的研究结果做出误导。
请问大家遇到类似情形该怎么办? 语料库的编制者又准备怎么应对这个问题?
 

附件

  • 遇到这种情况怎么办.jpg
    遇到这种情况怎么办.jpg
    63.2 KB · 浏览: 9
Last edited:
回复: 请问大家遇到类似情形该怎么办?

语料库的质量是语料库研究的基础。如果第一步就出错的话,以后的研究就会步步错。
 
Back
顶部