请教:如何理解从语料库检索中得到的如下结果?

各位好,
我刚刚开始接触语料库,想尝试用语料库辅助理解一些语篇。

前些天我从一个1亿语的书面语语料库中,检索一个动词,
得到近80个样本,
我发现其中有3个样本的搭配词具有近似性,并且语境明显和其他70多个样本不同。
请教各位,
应该怎样理解上述结果,是否可以据此结果得出结论说,
这3个样本属于罕见的用例,并且这样的搭配只用在这3个样本体现的语境中?

另外还想问问样本的英文是sample还是example,

先谢谢大家!
 
sample是抽样,example是范例,instance是口笔语通用,而case适合口语

你所说的“样本”这个词在语料库语言学中对应的术语是hit或concordance,表示你在库中找到了多少个实例(同时呈现出左右两侧的一些单词)。

sample这个词与example这个词在日常英语中有一定区别,sample更多用来指抽取或选取的整体的不可直接计算或不方便直接计数的固体液体气体之类的一把或一瓶或一桶东西;example这个词的最直接特征是“演示”与“模范”,所以,侧重个体,侧重典型。所以,你想知道某盘菜是否可口,你弄一勺子,叫做sample,不叫example;而你是个语料库的初学者,你是个example,而不是一个sample。与sample与example最容易混淆的单词应该是instance。instance是个案,是未必典型的例子,是很形象很鲜活的例子。在写作或口头上,你可以大致上随意用for example代替for instance或反之。在轻松的口语中,我们有个词很接近于instance,它是case,例如你可以说He is a good case of honesty(他是个典型的老实人)。

近义词辨析是个有趣的事情,语料库是个猛的工具!有了语料库,我们都变成猎人,总能满载而归……
 
回复: sample是抽样,example是范例,instance是口笔语通用,而case适合口语

哈哈,学到了这么多,所以我应该说the corpus returned 77 hits/concordance,
非常感谢您的回答:)

那您怎么看我检索到的结果,
就是在1亿语中捞出来的那3个样本?




你所说的“样本”这个词在语料库语言学中对应的术语是hit或concordance,表示你在库中找到了多少个实例(同时呈现出左右两侧的一些单词)。

sample这个词与example这个词在日常英语中有一定区别,sample更多用来指抽取或选取的整体的不可直接计算或不方便直接计数的固体液体气体之类的一把或一瓶或一桶东西;example这个词的最直接特征是“演示”与“模范”,所以,侧重个体,侧重典型。所以,你想知道某盘菜是否可口,你弄一勺子,叫做sample,不叫example;而你是个语料库的初学者,你是个example,而不是一个sample。与sample与example最容易混淆的单词应该是instance。instance是个案,是未必典型的例子,是很形象很鲜活的例子。在写作或口头上,你可以大致上随意用for example代替for instance或反之。在轻松的口语中,我们有个词很接近于instance,它是case,例如你可以说He is a good case of honesty(他是个典型的老实人)。

近义词辨析是个有趣的事情,语料库是个猛的工具!有了语料库,我们都变成猎人,总能满载而归……
 
统计学上,1%或5%就属于小概率了

1亿个人之中才能发现3个好人的话,好人能算存在么。1亿就是1后面跟随8个0呢,就算是1亿有100个例子,也等于10万分之1而已的概率呢。概率太小的事情,很难说有什么规律或类型。
 
回复: 统计学上,1%或5%就属于小概率了

懂了,就是说可以认为这3个用例非常罕见,但不能就此总结说这3个用例体现了某种特殊用法,对吧?

那如果与这3个罕见用例相似的用法,出现在公开场合发表的、面向国际社会的政治发言中,这是否可以说是不同寻常?

而且,这3个用例的罕见用法,在其他语言及相应的翻译过程中,也发现了相似的案例,那么是否可以有所归纳呢?

谢谢!




1亿个人之中才能发现3个好人的话,好人能算存在么。1亿就是1后面跟随8个0呢,就算是1亿有100个例子,也等于10万分之1而已的概率呢。概率太小的事情,很难说有什么规律或类型。
 
“存在就是合理” 与 “凸显才是合理”,都正确都错误

低频现象的存在有多种原因(本族语者也有对拼写,词汇,句法,语用的瞬间失误甚至为了彰显个性而刻意制造另类现象),如果你在google之类搜索引擎打入一个错误了某个字母的英语单词,你都能发现数百甚至数千的结果呢,例如你把defeat的过去式错误地多打了一个t而变成defeatted,那么,你会跟我一样发现整个互联网有157个instance或concordance呢!链接在此:http://www.bing.com/search?q=%2bdefeatted&FORM=RCRE (但是,正常情况下,搜索引擎会自动纠错而让你无法直接搜索某些错误拼写的,但都会以不起眼的字体字号而提醒你“你是否真的是要搜索某某单词或词组呢。例如当我直接输入defeatted之后,我就看到页面顶部有Do you want results only for defeatted?我点了这个defeatted的链接才有了上面的链接的,否则搜索引擎将会只是提供defeated的搜索结果而自认为自己很智能

在至少有数百万单词的语料的情况下,频词的品种庞大(type total)而重复个数(token total)相同的单词的量挺大,你在这里(点此跳转)下载BNC(一亿词的英式英语语料库)的词频列表就会发现在一亿词中出现5次的单词的数量很多,6次的也很多,7次的也很多,这就是所谓的“齐夫效应”与“长尾效应”,类似于这个社会上的低收入人群其实比高收入人群的数量与品种要多得多

英语语法分为两大类:学校语法(也叫教学语法,teacher's grammar)与学者语法(也叫学术语法,scholar's grammar)学校语法是用来约束初学者和水平不够高的人和希望遵从主流与正统语法的人的;学者语法是研讨不算高频的各种现象的合法性与规律性的。《薄冰语法》、《张道真语法》、《张振邦语法》、《牛津语法》都是属于teaching grammar的,这叫做“规范主义”,强调“随大流”。而《朗文英语口语和笔语语法(点此链接)》与《Quirk第1版语法(点此链接)》以及《Quirk第2版语法(点此链接》都属于scholarly grammar,这叫做“描写主义”,强调“次流与低频也是合理的存在”。

已经熟谙主流的人刻意走向次流,是彰显个性;尚未熟悉主流的人有意无意走向次流,往往导致非议;跟正统的人交流或在正统的场合,就应该偏向正统与主流;若在不够严肃的场合下或亲密型交流,那么,使用远离主流的用法是取得更好交际效果的甚至必经之路。脱离语境或脱离场合,凭空谈论“合理合法”是务虚;不分场合,都采用单一的或固定的交际策略或语言特色,是僵化。

历史到底是领袖缔造还是群众创造,要辩证地看;语言规则到底是少数人的时装,还是多数人的西装,要历史地看;语料库到底用来举例,还是用来统计,要看个人需求和个人面临的挑战者(们)。
 
回复: 请教:如何理解从语料库检索中得到的如下结果?

亮哥的讲解真是清晰无比,佩服佩服
 
回复: “存在就是合理” 与 “凸显才是合理”,都正确都错误

谢谢~我看了两遍,认识到原来低频词是一堆一堆的,低频这一事实本身不具太大意义。

于是我重新检查了一下我的检索,
发现我犯了一个很低级的错误,就是我忽略了动词的变化。

我重新作了检索,把动词变化也考虑进去了,
新的结果是,这个动词A在1亿语的语料库中有约7500个hits,
由于我检索的日语是SOV结构,
所以为了发现动词A的宾语有什么规律,
我进一步观察了左侧文脉(我可以这么说吗?left context?),
并且限定左侧文脉包含一个特定的词B,
这样应该可以有机会看出词B作为动词A的宾语、与动词A搭配的样本有多少。
结果得到200多hits。
这200多hits中,其实有很大一部分,B不是作宾语,而是作了主语或其实不在一个小句里。
最终B作A的宾语的hits少于20个。

还请您给看看,这回我能不能说这种搭配罕见?

先谢谢啦!






低频现象的存在有多种原因(本族语者也有对拼写,词汇,句法,语用的瞬间失误甚至为了彰显个性而刻意制造另类现象),如果你在google之类搜索引擎打入一个错误了某个字母的英语单词,你都能发现数百甚至数千的结果呢,例如你把defeat的过去式错误地多打了一个t而变成defeatted,那么,你会跟我一样发现整个互联网有157个instance或concordance呢!链接在此:http://www.bing.com/search?q=%2bdefeatted&FORM=RCRE (但是,正常情况下,搜索引擎会自动纠错而让你无法直接搜索某些错误拼写的,但都会以不起眼的字体字号而提醒你“你是否真的是要搜索某某单词或词组呢。例如当我直接输入defeatted之后,我就看到页面顶部有Do you want results only for defeatted?我点了这个defeatted的链接才有了上面的链接的,否则搜索引擎将会只是提供defeated的搜索结果而自认为自己很智能

在至少有数百万单词的语料的情况下,频词的品种庞大(type total)而重复个数(token total)相同的单词的量挺大,你在这里(点此跳转)下载BNC(一亿词的英式英语语料库)的词频列表就会发现在一亿词中出现5次的单词的数量很多,6次的也很多,7次的也很多,这就是所谓的“齐夫效应”与“长尾效应”,类似于这个社会上的低收入人群其实比高收入人群的数量与品种要多得多

英语语法分为两大类:学校语法(也叫教学语法,teacher's grammar)与学者语法(也叫学术语法,scholar's grammar)学校语法是用来约束初学者和水平不够高的人和希望遵从主流与正统语法的人的;学者语法是研讨不算高频的各种现象的合法性与规律性的。《薄冰语法》、《张道真语法》、《张振邦语法》、《牛津语法》都是属于teaching grammar的,这叫做“规范主义”,强调“随大流”。而《朗文英语口语和笔语语法(点此链接)》与《Quirk第1版语法(点此链接)》以及《Quirk第2版语法(点此链接》都属于scholarly grammar,这叫做“描写主义”,强调“次流与低频也是合理的存在”。

已经熟谙主流的人刻意走向次流,是彰显个性;尚未熟悉主流的人有意无意走向次流,往往导致非议;跟正统的人交流或在正统的场合,就应该偏向正统与主流;若在不够严肃的场合下或亲密型交流,那么,使用远离主流的用法是取得更好交际效果的甚至必经之路。脱离语境或脱离场合,凭空谈论“合理合法”是务虚;不分场合,都采用单一的或固定的交际策略或语言特色,是僵化。

历史到底是领袖缔造还是群众创造,要辩证地看;语言规则到底是少数人的时装,还是多数人的西装,要历史地看;语料库到底用来举例,还是用来统计,要看个人需求和个人面临的挑战者(们)。
 
“搭配罕见”与否,有两层含义,“与否”有两种逻辑

搭配主要是两个词之间的若远若近的形影不离,中间的间隔词可能有一个或多个。

一方面,搭配就像夫妻,这对人如果不喜欢社交,就很少露面,作为整体,你可以叫这对是“罕见”,这种情形是“整体测量”或“整体评价”;

另一方面,搭配就像朋友,这两个人可能各自都有自己的朋友圈,而需要衡量两者之间“关系有多铁”,这,你也可以叫做“罕见”或“搭配力”或“互信息(mutual information)”,这种情形是“相对测量”。

作为读硕读博的学生,主要面临3种竞争与评价。一,是自己的知识积累与学术套路的兴趣;二,是导师的知识积累与学术套路的兴趣;三,是国内外的同行专家的评价与兴趣。这三种力量往往是冲突的,每个人都希望自己身上的这三股力量吻合的。

你说某种搭配是罕见,可以凭直觉,凭肉眼,也可以凭统计,凭统计测量的显著性的取值。有些导师(有的年轻,有的年老)很反感统计学哟,你用统计学的严肃手段,他或她反而给你盖个帽子“统计学都是骗人的,你不要拿这些来糊弄我”(我在博士答辩会上亲眼所见)。学术积累毕竟就跟技术积累是类似的,跟高尚无关,跟思维灵活性有关,跟兼容并蓄有关,跟习惯性思维有关。寄人篱下的时光毕竟是短暂的,自由的翅膀迟早会飞翔在属于你的高空……

 
回复: “搭配罕见”与否,有两层含义,“与否”有两种逻辑

嗯,谢谢您的回复。

我们不可能把我们的新思维和方法强加给老一辈的人,
同样的,老一辈的人也不可能强求我们接受和延续旧想法。虽然也许他们的各种权力包括话语权目前比我们大。

做学问最悲催就是没有阵地,
我着手做这个研究之前,已经看好了阵地。所以导师(目前也没有)认不认可、一部分同行是不是认可没什么关系,只要我觉得应该是同道的那块阵地认可就行了——总没办法让所有人认可的,不同翼的总是鸡同鸭讲呀。




搭配主要是两个词之间的若远若近的形影不离,中间的间隔词可能有一个或多个。

一方面,搭配就像夫妻,这对人如果不喜欢社交,就很少露面,作为整体,你可以叫这对是“罕见”,这种情形是“整体测量”或“整体评价”;

另一方面,搭配就像朋友,这两个人可能各自都有自己的朋友圈,而需要衡量两者之间“关系有多铁”,这,你也可以叫做“罕见”或“搭配力”或“互信息(mutual information)”,这种情形是“相对测量”。

作为读硕读博的学生,主要面临3种竞争与评价。一,是自己的知识积累与学术套路的兴趣;二,是导师的知识积累与学术套路的兴趣;三,是国内外的同行专家的评价与兴趣。这三种力量往往是冲突的,每个人都希望自己身上的这三股力量吻合的。

你说某种搭配是罕见,可以凭直觉,凭肉眼,也可以凭统计,凭统计测量的显著性的取值。有些导师(有的年轻,有的年老)很反感统计学哟,你用统计学的严肃手段,他或她反而给你盖个帽子“统计学都是骗人的,你不要拿这些来糊弄我”(我在博士答辩会上亲眼所见)。学术积累毕竟就跟技术积累是类似的,跟高尚无关,跟思维灵活性有关,跟兼容并蓄有关,跟习惯性思维有关。寄人篱下的时光毕竟是短暂的,自由的翅膀迟早会飞翔在属于你的高空……

 
Back
顶部