请教：great 的名词搭配

june · 2008-02-18

在对比great 一词在CLEC和LOCNESS的名词搭配的异同时，设定T>=2, mi>=3, 在LOCNESS里只有3个显著搭配, 而在CLEC里却有二十几个显著搭配, 很难对比分析. 后来用BNC的一个子库检索,库容是CLEC的十几倍, 发现GREAT的显著搭配有六十几个. 看起来显著搭配词的数量与库容有关. 想请教老师:是不是一定要两个库容差不多时才能做这样的搭配对比分析?

第二个问题是:BNC是赋码语料库,我用的是antcon,在统计库容时那些标注码(NN, ADJ...)都被统计到库容里, 而CLEC没有标注,这样两库的实际容量还是不一样, 不知怎么才能解决这个问题?

请老师们给我指导, 十分感谢!

oscar3 · 2008-02-18

回复: 请教：great 的名词搭配

LOCNESS里面的3和和CLEC中的20几个能说明什么呢？恐怕不能就简单以数字来下结论吧，因为两个语料库的质不同。无论你统计的起点设定为多大，CLEC数据都要经过经过验证才能采信。是不是再辅以KWIC分析，重点看看CLEC中great的搭配在上下文中是否得体？如果不经过验证，你找再到的参照库都没有用。

june · 2008-02-18

回复: 请教：great 的名词搭配

作者 oscar3:
LOCNESS里面的3和和CLEC中的20几个能说明什么呢？恐怕不能就简单以数字来下结论吧，因为两个语料库的质不同。无论你统计的起点设定为多大，CLEC数据都要经过经过验证才能采信。是不是再辅以KWIC分析，重点看看CLEC中great的搭配在上下文中是否得体？如果不经过验证，你找再到的参照库都没有用。

1 您所说的“两个语料库的质不同” 不知是什么意思？
2搭配词的数量是我分析的一个方面，先从量上分析，然后再具体辅以KWIC分析它的搭配得体性。您所说的“CLEC数据都要经过经过验证才能采信”，是不是不能完全按照软件分析得出的数据，必须经过人工筛选，不是所有符合MI和T值的名词都是它的显著搭配吗？但是我看了好多文章都是设定这两个最低值得到的显著搭配，不知何故？

oscar3 · 2008-02-19

回复: 请教：great 的名词搭配

作者 yajuanzhong:
1 您所说的“两个语料库的质不同” 不知是什么意思？
2搭配词的数量是我分析的一个方面，先从量上分析，然后再具体辅以KWIC分析它的搭配得体性。您所说的“CLEC数据都要经过经过验证才能采信”，是不是不能完全按照软件分析得出的数据，必须经过人工筛选，不是所有符合MI和T值的名词都是它的显著搭配吗？但是我看了好多文章都是设定这两个最低值得到的显著搭配，不知何故？

1. 说两个语料库质不同，是指二者的语料来源不同，前者为native speaker的语料，后者为Chinese learner的中介语语料。
2. 在这种情况下，CLEC中的搭配数据为20多，能说明什么？这种搭配的显著性能说明Chinese learner使用great的变化更丰富吗？不过，如果两个语料库在采集语料方面的标准一致，容量又基本一致，似乎可以说明Chinese learner过渡使用great一词。我没有研究过CLEC中的搭配，我只是依据自己的常识在发言。据说这个语料库是一个诊断性语料库，我的理解是找Chinese learner英语学习中问题的语料库。我不明白你到底在研究什么，所以，我的发言可能显得有点无的放矢。

请教：great 的名词搭配

june

oscar3

高级会员

june

oscar3

高级会员