请教:great 的名词搭配

#1
在对比great 一词在CLEC和LOCNESS的名词搭配的异同时,设定T>=2, mi>=3, 在LOCNESS里只有3个显著搭配, 而在CLEC里却有二十几个显著搭配, 很难对比分析. 后来用BNC的一个子库检索,库容是CLEC的十几倍, 发现GREAT的显著搭配有六十几个. 看起来显著搭配词的数量与库容有关. 想请教老师:是不是一定要两个库容差不多时才能做这样的搭配对比分析?

第二个问题是:BNC是赋码语料库,我用的是antcon,在统计库容时那些标注码(NN, ADJ...)都被统计到库容里, 而CLEC没有标注,这样两库的实际容量还是不一样, 不知怎么才能解决这个问题?

请老师们给我指导, 十分感谢!
 

oscar3

高级会员
#2
回复: 请教:great 的名词搭配

LOCNESS里面的3和和CLEC中的20几个能说明什么呢?恐怕不能就简单以数字来下结论吧,因为两个语料库的质不同。无论你统计的起点设定为多大,CLEC数据都要经过经过验证才能采信。是不是再辅以KWIC分析,重点看看CLEC中great的搭配在上下文中是否得体?如果不经过验证,你找再到的参照库都没有用。
 
#3
回复: 请教:great 的名词搭配

LOCNESS里面的3和和CLEC中的20几个能说明什么呢?恐怕不能就简单以数字来下结论吧,因为两个语料库的质不同。无论你统计的起点设定为多大,CLEC数据都要经过经过验证才能采信。是不是再辅以KWIC分析,重点看看CLEC中great的搭配在上下文中是否得体?如果不经过验证,你找再到的参照库都没有用。
1 您所说的“两个语料库的质不同” 不知是什么意思?
2搭配词的数量是我分析的一个方面, 先从量上分析, 然后再具体辅以KWIC分析它的搭配得体性。您所说的“CLEC数据都要经过经过验证才能采信”, 是不是不能完全按照软件分析得出的数据, 必须经过人工筛选,不是所有符合MI和T值的名词都是它的显著搭配吗? 但是我看了好多文章都是设定这两个最低值得到的显著搭配,不知何故?
 

oscar3

高级会员
#4
回复: 请教:great 的名词搭配

1 您所说的“两个语料库的质不同” 不知是什么意思?
2搭配词的数量是我分析的一个方面, 先从量上分析, 然后再具体辅以KWIC分析它的搭配得体性。您所说的“CLEC数据都要经过经过验证才能采信”, 是不是不能完全按照软件分析得出的数据, 必须经过人工筛选,不是所有符合MI和T值的名词都是它的显著搭配吗? 但是我看了好多文章都是设定这两个最低值得到的显著搭配,不知何故?
1. 说两个语料库质不同,是指二者的语料来源不同,前者为native speaker的语料,后者为Chinese learner的中介语语料。
2. 在这种情况下,CLEC中的搭配数据为20多,能说明什么?这种搭配的显著性能说明Chinese learner使用great的变化更丰富吗?不过,如果两个语料库在采集语料方面的标准一致,容量又基本一致,似乎可以说明Chinese learner过渡使用great一词。我没有研究过CLEC中的搭配,我只是依据自己的常识在发言。据说这个语料库是一个诊断性语料库,我的理解是找Chinese learner英语学习中问题的语料库。我不明白你到底在研究什么,所以,我的发言可能显得有点无的放矢。
 
顶部