[FONT=宋体]本人想做一个关于学生词块使用特征的一个调查分析,但是通过[/FONT] Antconc [FONT=宋体]的[/FONT]N-gram [FONT=宋体]和[/FONT]cluster[FONT=宋体]对语料检索的结果发现很多词块有重合部分,例如,[/FONT]than other types of [FONT=宋体]和[/FONT] better than other types of[FONT=宋体]还有一些词块自身没有意义,比如,[/FONT]more and, is the, make a,[FONT=宋体]等等。如果将这些词块纳入我们的研究中,是不是会影响到我们的研究结果?[/FONT]
[FONT=宋体]个人的一点看法[/FONT]
N-Gram [FONT=宋体]([/FONT]N[FONT=宋体]元结构)是利用计算机技术将所有的“单词连续体”看作是多元序列或者词块,比如[/FONT]face to face communication,[FONT=宋体]利用[/FONT]antconc[FONT=宋体]来进行[/FONT]n[FONT=宋体]元结构的检索,(结构长度设定为[/FONT]2-5[FONT=宋体]),那么检索的结果会将[/FONT]face to[FONT=宋体],[/FONT]to face, face to face, face communication, face to face communication[FONT=宋体]看作是不同的[/FONT]n[FONT=宋体]元结构或者词块,可是根据常识,在这个短语中“[/FONT]face to face[FONT=宋体]”或者“[/FONT]face to face communication[FONT=宋体]”才能被看作是有意义的预制结构,[/FONT]face to, to face, face communication [FONT=宋体]都是[/FONT]broken fragments, [FONT=宋体]不能被认为是词块或者说“意义连续体”和“语义连续体”。相反地,很多单词,如[/FONT]nowadays[FONT=宋体],[/FONT]however, firstly [FONT=宋体]虽然只是一个单词,但是它们能够表达一个完整的意义,或者完成一个语法功能,那么我感觉这就可以被认为是一个词块。另外,分散在文本的不同位置但却表达完整意义的结构,比如说[/FONT]it takes ...... to do[FONT=宋体],[/FONT] when......happens, as far as .....be concerned, [FONT=宋体]也应该看作是词块结构,在[/FONT]N-gram[FONT=宋体]中却是无法检索出来的。[/FONT] [FONT=宋体]同样在[/FONT] cluster [FONT=宋体]中也是无法解决以上问题的。因此,“词块”的定义是否需要重新界定,同时要对学生的词块使用进行调查是否只能对本文进行手动的标注。具体的标注方案和手段有没有借鉴呢,希望大家能给我一些建议。[/FONT]
[FONT=宋体]个人的一点看法[/FONT]
N-Gram [FONT=宋体]([/FONT]N[FONT=宋体]元结构)是利用计算机技术将所有的“单词连续体”看作是多元序列或者词块,比如[/FONT]face to face communication,[FONT=宋体]利用[/FONT]antconc[FONT=宋体]来进行[/FONT]n[FONT=宋体]元结构的检索,(结构长度设定为[/FONT]2-5[FONT=宋体]),那么检索的结果会将[/FONT]face to[FONT=宋体],[/FONT]to face, face to face, face communication, face to face communication[FONT=宋体]看作是不同的[/FONT]n[FONT=宋体]元结构或者词块,可是根据常识,在这个短语中“[/FONT]face to face[FONT=宋体]”或者“[/FONT]face to face communication[FONT=宋体]”才能被看作是有意义的预制结构,[/FONT]face to, to face, face communication [FONT=宋体]都是[/FONT]broken fragments, [FONT=宋体]不能被认为是词块或者说“意义连续体”和“语义连续体”。相反地,很多单词,如[/FONT]nowadays[FONT=宋体],[/FONT]however, firstly [FONT=宋体]虽然只是一个单词,但是它们能够表达一个完整的意义,或者完成一个语法功能,那么我感觉这就可以被认为是一个词块。另外,分散在文本的不同位置但却表达完整意义的结构,比如说[/FONT]it takes ...... to do[FONT=宋体],[/FONT] when......happens, as far as .....be concerned, [FONT=宋体]也应该看作是词块结构,在[/FONT]N-gram[FONT=宋体]中却是无法检索出来的。[/FONT] [FONT=宋体]同样在[/FONT] cluster [FONT=宋体]中也是无法解决以上问题的。因此,“词块”的定义是否需要重新界定,同时要对学生的词块使用进行调查是否只能对本文进行手动的标注。具体的标注方案和手段有没有借鉴呢,希望大家能给我一些建议。[/FONT]