第 3 章统计语言模型

讲述如何利用统计语言模型处理自然语言，以及如何确保结果的准确性、减少不平滑。

统计语言模型

用来处理自然语言的上下文关系，它是所有自然语言处理的基础。并广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼音纠错、汉字输入和文献查询。

利用概率大小衡量一个文字序列是否能构成大家理解而且有意义的句子

假定表示某一个有意义的句子，由一连串特定顺序排列的词 $w_1,\ w_2,\ \cdots ,\ w_n$ 组成，其中是句子的长度。现在我们想知道在文本中出现的可能性，即是的概率 $P\left( S \right)$ 。既然 $S = w_1,\ w_2,\ \cdots ,\ w_n$ ，那不妨将 $P\left( S \right)$ 展开表示：

序列出现的概率，等于序列中每一个词 w_i 出现的条件概率相乘，其中 $i=\left\{ \text{1,}\cdots ,\ n \right\}$ ，并且出现的概率同他前面的所有词有关，于是 $P\left( w_1,\ w_2,\ \cdots ,\ w_n \right)$ 可展开为：

由于计算复杂，所以就假设（马尔科夫假设）任意一个词 w_i 出现的概率只同它前面的词 $w_{i-1}$ 有关：

接下来的问题就是估计条件概率 $P\left( w_i\mid w_{i-1} \right)$ 根据定义，可知：

对与联合概率 $P\left( w_{i-1},\ w_i \right)$ 和边缘概率 $P\left( w_{i-1} \right)$ 的估计就变得简单了。通过计数可获得这些词或者二元组的相对频度：

根据大数定律，只要统计量足够，相对频度就等于概率，即：

大数定律

大数定律(law of large numbers)，是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到，大数定律并不是经验规律，而是在一些附加条件上经严格证明了的定理，它是一种自然规律因而通常不叫定理而是大数“定律”。

在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着某种必然。

结合（3.4），（3.7），（3.8），可得：

N-1 阶马尔科夫模型

假设文本中的每个词 w_i 和前面的 N-1 个词有关系，而与更前面的词无关，则：

N=1 的一元模型实际上是一个上下文无关的模型，的值一般为2，或3。

值很少取更高值的原因：

一是越大，复杂度 $O\left( |V|^N \right)$ 越大（这里是一种语言词典的词汇量）。
二是自然语言中上下文的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落，所以即使模型阶数n再高，也没有太多意义。这是马尔科夫假设的局限。

马尔科夫假设的局限

一是越大，复杂度 $O\left( |V|^N \right)$ 越大（这里是一种语言词典的词汇量）。
二是自然语言中上下文的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落，所以即使模型阶数再高，也没有太多意义。

模型的训练

通过对语料的统计，得到模型中的参数。

我们需要足够的语料才能得到较为可靠的概率。然而语料过多，可能会导致大部分条件概率为0的情况，这种模型叫做“不平滑”。

减少不平滑

古德-图灵估计（Good-Turing Estimate）：对于没有看见的事件，我们不能认为它的发生概率就是零，因此我们从概率的总量中，分配一个很小的概率给予这些没有看见的事件。这样一来，看见的时间的概率总和就要小于1了。至于小多少，要根据“越是不可信的统计折扣越多”的方法进行。

设语料库中出现次的词有 N_r 个，特别地，未出面的词数量为 N_0 ,语料库大小为。那么，显然有：

出现次词在整个语料库中的相对频度（Relative Frequency）则是 r/N ，若不做任何优化处理，就可用这个相对频度作为这些词的频率估计。

现在假定当比较小时，它的统计可能不可靠，因此出现次的那些词在计算它们的概率时要使用一个更小一点的次数 d_r （而不直接使用），古德-图灵估计按照下列公式计算：

显然：

Zipf 定律（Zipf's Law）

一般来说，出现一次的词的数量比出现两次的多，出现两次的比出现三次的多。这种规律称为Zipf定律。

删除插值法：因为一元组 $\left( w_i \right)$ 出现的次数平均比二元组 $\left( w_{i-1},\ w_i \right)$ 出现的次数要高得多，根据大数定理，它的频度更接近概率分布。所以，用低阶语言模型和高阶模型进行线性差值来达到平滑的目的。即连续三个字出现的概率 $\lambda$ 倍连续三个字出现的概率 $\mu$ 倍连续两个字出现的概率 $\left( 1-\lambda -\mu \right)$ 倍该字单独出现的概率：