基于语料库和面向统计学的自然语言处理技术介绍
作 者: 周 强
来 源: 北京大学计算语言学研究所
【摘要】本文主要介绍了一些常用的基于语料库和面向统计学的经验主义处理技术,包括:Shannon的噪声信道模型及其在语言信息处理中的应用,统计语言模型的构造和参量估计及参数平滑方法,基于优先的分析技术等.并对这种技术在汉语自动分析中的应用提出了一些看法。
关键字:基于统计的处理技术,语料库语言学。
一. 引言
“语料库语言学(Corpus Linguistics)是80年代才崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用”([HCN90])。语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成、缺一不可的。从本质上讲,语料库语言学的研究采用的是一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是很不相同的。
其实,早在1949年,Warren Weaver([Wea49])就提出了一个设想,认为可以利用信息论的编码思想,使用一种统计的方法,来解决机器翻译的问题。五十年代,经验主义更是处于它的鼎盛时期,它统治了从心理学(行为主义)到电子工程(信息论)的广泛的领域。在那时候,不仅依据词的意义而且依据它们与其它词的共现情况对词进行分类,是语言学上的常规操作。但是,随着五十年代末到六十年代初一系列重大事件的发生,包括Chomsky在“句法结构”([Ch57])中对n元语法(n-gram)的批评和Minsky和Papert在“视觉感控器(Perceptrons)”([MP67])中对神经网络的批评,人们对经验主义的兴趣逐渐减退了。
近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件使大容量的机器可读语料库的建设成为可能。仅仅在十几年以前,一百万词的Brown语料库([FK82])还被认为是巨大的,但从此以后,出现了更大的语料库,例如:二千万词的Birmingham语料库([Sin87])。今天,许多地方都有了达到几亿甚至数十亿词的文本样例。同时,一些新的、更好的统计语言模型也开始出现。而且,随着自然语言理解系统的不断实用化,知识获取问题已成为一个瓶颈,基于规则的NLP系统在处理大规模的非受限真实文本中遇到的种种困难,促使广大研究人员去探索和采用一种新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法成为目前NLP研究中的一个热点。
本文主要根据笔者目前所掌握的一些资料,对基于语料库和面向统计学的经验主义处理技术作一个简要的介绍。在下面的几节中,第2节将给出这种技术的基本处理思想和所用到的一些基本概念及术语。第3节主要讨论Shannon的噪声信道模型在语言信息处理中的应用。第4节分析语言模型构造和进行参量估计的方法。第5节将讨论基于频度的优先信息在语言分析中的应用。最后是结束语。
二. 基于语料库和面向统计学的处理技术
在语料库语言学中,基于统计的处理技术是从语料库中获取各种所需要的知识的主要手段。它的基本思想是:
i). 使用语料库作为唯一的信息源,所有的知识(除了统计模型的构造方法)都是从语料库中获得的。
ii). 使用统计方法获取知识:知识在统计意义上被解释,所有参量都是通过统计处理从语料库中自动习得的。
要了解和熟悉这种处理技术,必须了解一定的概率论、信息论和数理统计的知识。下面简单地介绍一下其中的一些基本概念和术语:
1). 概率 P(A)
表示在一个样本空间中,事件A发生的可能性。例如:扔硬币时得到正面的概率 P(A)=0.5
2). 条件概率 P(A|C)
表示在事件C发生的条件下,事件A发生的可能性。例如:给定一个特定的词w,它在语料库中作名词n的概率为 P(n|w)。
3). 联合概率 P(A,B)
表示事件A和B同时发生的可能性。例如:在语料库中,词x和词y同时出现的概率为P(x,y)。
4). 贝叶斯计算模型
在概率论中,贝叶斯公式描述了通过一系列先验概率计算后验概率的一种方法,其具体定义为:
,(i=1,2,...,n)且
考虑其最简单的形式,则有:
此公式为解决语料库研究中大量的限制性对应问题提供了有力的支持。
5). 平均值:
表示数列 的算术平均值。
6). 方差:
表示数列 相对于平均值的离散程度。
7). 熵:
这是信息论中的一个重要概念,表示信源所具有的平均信息量的大小。
8). 相关信息计算模型
在统计学中,相关信息(又称互信息)I(x;y) 定义为:
若x,y分别表示两个不同的单词,则 I(x;y) 体现了词x和y信息的相关程度,即:
若 I(x;y)>>0,则表明x与y是高度相关的。
若 I(x;y)=0, 则表明x与y是独立的。
若 I(x;y)<<0,则表明x与y是互补分布的。
相关信息的计算对词关联(word association)和词共现(word co-occurrence)等信息的统计起着重要的作用。
三. 噪声信道模型及其应用
3.1 噪声信道模型
Shannon的通信理论([Sh48]),也就是众所周知的信息论,最初是在AT&T贝尔实验室中为模型化沿着一条噪声信道(如:一条电话线)的通信问题而提出的。但作为一种抽象的理论模型,它在许多识别应用领域,如:语音识别、光学字符识别(OCR)等方面也得到了广泛的应用。
想象有这样一个噪声信道,它使一系列好的文本(I)进入信道后,以一系列讹误的文本(O)从另一端输出。即:
I → 噪声信道 → O
一个自动过程怎样才能从一个讹误的输出O中恢复好的输入I呢?原则上,人们可以通过假设所有可能的输入I,并且从中选取具有最高评分P(I|O)的输入文本作为最有可能的输入 ,符号化为:
其中ARGMAX表示寻找具有最大评分的参量。
先验概率P(I)是I在信道的输入端出现的概率。例如:在语音识别中,它是说话人发出I的概率。但事实上,先验概率是得不到的,因此,我们需要构造一个先验概率的模型,如三元语法(3-gram)模型来模拟它。语言模型的参数可以通过计算大量文本样例上的不同统计数据而进行估计。
信道概率P(O|I)是当I出现在输入端时O将在信道的输出端出现的概率。如果在某些合适的含义下,I类似于O,则此概率较大;反之,则较小。信道概率依赖于应用问题。例如:在语音识别中,单词“writer”的输出看起来可能类似于单词“rider”;而在字符识别中,“farm”则极有可能是“form”的输出。
3.2 噪声信道模型在语言信息处理中的应用
⑴. 识别问题
在语音识别([BJM83]),光学字符识别(OCR)([KPB87])和自动拼写校对([MDM90])等大量的识别应用领域,噪声信道模型正越来越得到广泛的运用。这些识别问题都可以抽象为下面的模型:
W → 噪声信道 → Y
其中,W是一串单词或字符。对于语音识别问题,Y为一组声音信号;在OCR中,Y为扫描得到的位图信息;而在拼写校对问题中,Y则为一串可能有错的录入字符串。这样,问题的目标就归结于寻找这样的一个单词或字符串 ,使:
⑵. 词类标注
目前的许多词类自动标注算法([Ch88],[DR88],[GLS87],[BSH92])都是以Shannon的噪声信道模型为基础的。设有一串词类标记C出现在信道的输入端,并且由于某些奇怪的原因,它以一串单词的形式出现在信道的输出端。我们的工作就是要在给定W的情况下确定C。
C → 噪声信道 → W
利用类似的方法,最为可能的词类序列 可由下式给出:
这里的P(C)和P(W|C)可以利用从大规模标注文本中进行参数估计得到的一组语境概率 和一组词汇概率 进行简化计算而得到。在某种意义上,可以把这组语境概率看成一部语法,而把那组词汇概率看成一部词典。
⑶. 机器翻译
机器翻译(MT)研究究竟适合于采用基于规则的理性主义方法还是基于统计的经验主义方法,是目前国际上争论的一个热点问题。对这两种方法都进行了一些研究和探索。Weaver(1949)第一次提出了一种对MT的信息论处理方法。五、六十年代,在Georgetown,这种经验主义方法也在一个系统中进行了实践([HRZ79]),它最终发展成人所共知的 SYSTRAN系统。最近,MT的大部分研究工作倾向于采用理性主义方法,但也有一些例外,如:基于实例的机器翻译(EBMT)研究([SN90],[Kit93])。
IBM的P.F.Brown等人的研究工作([BC90])进一步发展了Weaver对MT信息论的处理方法。他们对法语翻译到英语的基本处理思路可以归结到Shannon的噪声信道模型中:
E → 噪声信道 → F
这里的噪声信道可以想象为一种翻译机制。同以前一样,依据下列公式选择 ,可使错误几率达到最小:
同样的,模型的参数估计可以利用大规模文本样例中得到的大量统计数据。其中先验概率P(E)可以通过构造合适的英语语言模型加以估计,而信道概率P(F|E),则可以从由一个计算哪部分源文本对应哪部分目标文本的自动过程建立了联结(alignment)的并行文本中进行估计([BPPM93]).
⑷. 拼音汉字转换
拼音汉字的自动转换问题是中文人机通讯中很关键的问题。它的解决对于人机自然语言交互通讯、汉字的键盘输入和汉语语音识别及合成都有重要意义。然而汉字的音字不一一对应,即一音多字、一字多音的现象,却给这个问题的解决带来了极大的困难。语料库语言学的发展,为研究者提供了一种新思路。
实际上,音字转换问题从抽象意义上看是一种对应问题。它非常类似于上面提到的识别问题,可以用噪声信道模型加以处理:
W → 噪声信道 → E
一串汉字W经过信道后,以一串拼音E的形式输出,这样,问题的焦点就转化为寻找一个汉字串 ,使:
利用这种方法的一些系统([Guo91],[JH91])都取得了较好的转换效果.
四. 统计模型构造和参量估计
在上面所提到的众多噪声信道应用问题中,如何计算先验概率P(I)和信道概率P(O|I)是研究的重点和难点所在。这需要根据不同的应用问题,选择并构造合适的统计语言模型,并利用从大规模文本样例中统计得到的大量数据来估计模型的参数。下面将简要地介绍模型构造和参量估计的常用方法。
4.1. 统计模型的构造
对于先验概率,比较简单和常用的统计语言模型为N元语法(N-gram)模型。考虑单词串 ,根据条件概率的定义,有:
其中 表示在给定历史信息 的条件下,选取词wn的概率。这就是N-gram模型,并且所有信息组成了一条Markov链。在实际应用中,为简化计算,往往只考虑一个或两个历史信息,形成了bigram模型( )和trigram模型( )。
由于信道概率依赖于应用,因此需要根据不同的应用问题,选择合适的统计计算模型。下面通过两个具体的实例说明一下模型的构造方法:
⑴. 词性标注
对于单词串 和词类标记串 ,假设每个词与词类标记的
对应情况都是独立的 ,并且每个单词仅仅依赖于它自己的词类信息 , 就可以得到如下的简
化计算模型:
⑵. 机器翻译
考虑从英语到法语的单句翻译情况,可以发现,为把一句英语句子 中的词 翻译为法语句子 中的词 ,一般可以采用下面三种方式:
a). 直译(translation)
作 者: 周 强
来 源: 北京大学计算语言学研究所
【摘要】本文主要介绍了一些常用的基于语料库和面向统计学的经验主义处理技术,包括:Shannon的噪声信道模型及其在语言信息处理中的应用,统计语言模型的构造和参量估计及参数平滑方法,基于优先的分析技术等.并对这种技术在汉语自动分析中的应用提出了一些看法。
关键字:基于统计的处理技术,语料库语言学。
一. 引言
“语料库语言学(Corpus Linguistics)是80年代才崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用”([HCN90])。语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成、缺一不可的。从本质上讲,语料库语言学的研究采用的是一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是很不相同的。
其实,早在1949年,Warren Weaver([Wea49])就提出了一个设想,认为可以利用信息论的编码思想,使用一种统计的方法,来解决机器翻译的问题。五十年代,经验主义更是处于它的鼎盛时期,它统治了从心理学(行为主义)到电子工程(信息论)的广泛的领域。在那时候,不仅依据词的意义而且依据它们与其它词的共现情况对词进行分类,是语言学上的常规操作。但是,随着五十年代末到六十年代初一系列重大事件的发生,包括Chomsky在“句法结构”([Ch57])中对n元语法(n-gram)的批评和Minsky和Papert在“视觉感控器(Perceptrons)”([MP67])中对神经网络的批评,人们对经验主义的兴趣逐渐减退了。
近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件使大容量的机器可读语料库的建设成为可能。仅仅在十几年以前,一百万词的Brown语料库([FK82])还被认为是巨大的,但从此以后,出现了更大的语料库,例如:二千万词的Birmingham语料库([Sin87])。今天,许多地方都有了达到几亿甚至数十亿词的文本样例。同时,一些新的、更好的统计语言模型也开始出现。而且,随着自然语言理解系统的不断实用化,知识获取问题已成为一个瓶颈,基于规则的NLP系统在处理大规模的非受限真实文本中遇到的种种困难,促使广大研究人员去探索和采用一种新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法成为目前NLP研究中的一个热点。
本文主要根据笔者目前所掌握的一些资料,对基于语料库和面向统计学的经验主义处理技术作一个简要的介绍。在下面的几节中,第2节将给出这种技术的基本处理思想和所用到的一些基本概念及术语。第3节主要讨论Shannon的噪声信道模型在语言信息处理中的应用。第4节分析语言模型构造和进行参量估计的方法。第5节将讨论基于频度的优先信息在语言分析中的应用。最后是结束语。
二. 基于语料库和面向统计学的处理技术
在语料库语言学中,基于统计的处理技术是从语料库中获取各种所需要的知识的主要手段。它的基本思想是:
i). 使用语料库作为唯一的信息源,所有的知识(除了统计模型的构造方法)都是从语料库中获得的。
ii). 使用统计方法获取知识:知识在统计意义上被解释,所有参量都是通过统计处理从语料库中自动习得的。
要了解和熟悉这种处理技术,必须了解一定的概率论、信息论和数理统计的知识。下面简单地介绍一下其中的一些基本概念和术语:
1). 概率 P(A)
表示在一个样本空间中,事件A发生的可能性。例如:扔硬币时得到正面的概率 P(A)=0.5
2). 条件概率 P(A|C)
表示在事件C发生的条件下,事件A发生的可能性。例如:给定一个特定的词w,它在语料库中作名词n的概率为 P(n|w)。
3). 联合概率 P(A,B)
表示事件A和B同时发生的可能性。例如:在语料库中,词x和词y同时出现的概率为P(x,y)。
4). 贝叶斯计算模型
在概率论中,贝叶斯公式描述了通过一系列先验概率计算后验概率的一种方法,其具体定义为:
,(i=1,2,...,n)且
考虑其最简单的形式,则有:
此公式为解决语料库研究中大量的限制性对应问题提供了有力的支持。
5). 平均值:
表示数列 的算术平均值。
6). 方差:
表示数列 相对于平均值的离散程度。
7). 熵:
这是信息论中的一个重要概念,表示信源所具有的平均信息量的大小。
8). 相关信息计算模型
在统计学中,相关信息(又称互信息)I(x;y) 定义为:
若x,y分别表示两个不同的单词,则 I(x;y) 体现了词x和y信息的相关程度,即:
若 I(x;y)>>0,则表明x与y是高度相关的。
若 I(x;y)=0, 则表明x与y是独立的。
若 I(x;y)<<0,则表明x与y是互补分布的。
相关信息的计算对词关联(word association)和词共现(word co-occurrence)等信息的统计起着重要的作用。
三. 噪声信道模型及其应用
3.1 噪声信道模型
Shannon的通信理论([Sh48]),也就是众所周知的信息论,最初是在AT&T贝尔实验室中为模型化沿着一条噪声信道(如:一条电话线)的通信问题而提出的。但作为一种抽象的理论模型,它在许多识别应用领域,如:语音识别、光学字符识别(OCR)等方面也得到了广泛的应用。
想象有这样一个噪声信道,它使一系列好的文本(I)进入信道后,以一系列讹误的文本(O)从另一端输出。即:
I → 噪声信道 → O
一个自动过程怎样才能从一个讹误的输出O中恢复好的输入I呢?原则上,人们可以通过假设所有可能的输入I,并且从中选取具有最高评分P(I|O)的输入文本作为最有可能的输入 ,符号化为:
其中ARGMAX表示寻找具有最大评分的参量。
先验概率P(I)是I在信道的输入端出现的概率。例如:在语音识别中,它是说话人发出I的概率。但事实上,先验概率是得不到的,因此,我们需要构造一个先验概率的模型,如三元语法(3-gram)模型来模拟它。语言模型的参数可以通过计算大量文本样例上的不同统计数据而进行估计。
信道概率P(O|I)是当I出现在输入端时O将在信道的输出端出现的概率。如果在某些合适的含义下,I类似于O,则此概率较大;反之,则较小。信道概率依赖于应用问题。例如:在语音识别中,单词“writer”的输出看起来可能类似于单词“rider”;而在字符识别中,“farm”则极有可能是“form”的输出。
3.2 噪声信道模型在语言信息处理中的应用
⑴. 识别问题
在语音识别([BJM83]),光学字符识别(OCR)([KPB87])和自动拼写校对([MDM90])等大量的识别应用领域,噪声信道模型正越来越得到广泛的运用。这些识别问题都可以抽象为下面的模型:
W → 噪声信道 → Y
其中,W是一串单词或字符。对于语音识别问题,Y为一组声音信号;在OCR中,Y为扫描得到的位图信息;而在拼写校对问题中,Y则为一串可能有错的录入字符串。这样,问题的目标就归结于寻找这样的一个单词或字符串 ,使:
⑵. 词类标注
目前的许多词类自动标注算法([Ch88],[DR88],[GLS87],[BSH92])都是以Shannon的噪声信道模型为基础的。设有一串词类标记C出现在信道的输入端,并且由于某些奇怪的原因,它以一串单词的形式出现在信道的输出端。我们的工作就是要在给定W的情况下确定C。
C → 噪声信道 → W
利用类似的方法,最为可能的词类序列 可由下式给出:
这里的P(C)和P(W|C)可以利用从大规模标注文本中进行参数估计得到的一组语境概率 和一组词汇概率 进行简化计算而得到。在某种意义上,可以把这组语境概率看成一部语法,而把那组词汇概率看成一部词典。
⑶. 机器翻译
机器翻译(MT)研究究竟适合于采用基于规则的理性主义方法还是基于统计的经验主义方法,是目前国际上争论的一个热点问题。对这两种方法都进行了一些研究和探索。Weaver(1949)第一次提出了一种对MT的信息论处理方法。五、六十年代,在Georgetown,这种经验主义方法也在一个系统中进行了实践([HRZ79]),它最终发展成人所共知的 SYSTRAN系统。最近,MT的大部分研究工作倾向于采用理性主义方法,但也有一些例外,如:基于实例的机器翻译(EBMT)研究([SN90],[Kit93])。
IBM的P.F.Brown等人的研究工作([BC90])进一步发展了Weaver对MT信息论的处理方法。他们对法语翻译到英语的基本处理思路可以归结到Shannon的噪声信道模型中:
E → 噪声信道 → F
这里的噪声信道可以想象为一种翻译机制。同以前一样,依据下列公式选择 ,可使错误几率达到最小:
同样的,模型的参数估计可以利用大规模文本样例中得到的大量统计数据。其中先验概率P(E)可以通过构造合适的英语语言模型加以估计,而信道概率P(F|E),则可以从由一个计算哪部分源文本对应哪部分目标文本的自动过程建立了联结(alignment)的并行文本中进行估计([BPPM93]).
⑷. 拼音汉字转换
拼音汉字的自动转换问题是中文人机通讯中很关键的问题。它的解决对于人机自然语言交互通讯、汉字的键盘输入和汉语语音识别及合成都有重要意义。然而汉字的音字不一一对应,即一音多字、一字多音的现象,却给这个问题的解决带来了极大的困难。语料库语言学的发展,为研究者提供了一种新思路。
实际上,音字转换问题从抽象意义上看是一种对应问题。它非常类似于上面提到的识别问题,可以用噪声信道模型加以处理:
W → 噪声信道 → E
一串汉字W经过信道后,以一串拼音E的形式输出,这样,问题的焦点就转化为寻找一个汉字串 ,使:
利用这种方法的一些系统([Guo91],[JH91])都取得了较好的转换效果.
四. 统计模型构造和参量估计
在上面所提到的众多噪声信道应用问题中,如何计算先验概率P(I)和信道概率P(O|I)是研究的重点和难点所在。这需要根据不同的应用问题,选择并构造合适的统计语言模型,并利用从大规模文本样例中统计得到的大量数据来估计模型的参数。下面将简要地介绍模型构造和参量估计的常用方法。
4.1. 统计模型的构造
对于先验概率,比较简单和常用的统计语言模型为N元语法(N-gram)模型。考虑单词串 ,根据条件概率的定义,有:
其中 表示在给定历史信息 的条件下,选取词wn的概率。这就是N-gram模型,并且所有信息组成了一条Markov链。在实际应用中,为简化计算,往往只考虑一个或两个历史信息,形成了bigram模型( )和trigram模型( )。
由于信道概率依赖于应用,因此需要根据不同的应用问题,选择合适的统计计算模型。下面通过两个具体的实例说明一下模型的构造方法:
⑴. 词性标注
对于单词串 和词类标记串 ,假设每个词与词类标记的
对应情况都是独立的 ,并且每个单词仅仅依赖于它自己的词类信息 , 就可以得到如下的简
化计算模型:
⑵. 机器翻译
考虑从英语到法语的单句翻译情况,可以发现,为把一句英语句子 中的词 翻译为法语句子 中的词 ,一般可以采用下面三种方式:
a). 直译(translation)
[本贴已被 作者 于 2005年06月15日 03时11分46秒 编辑过]