第 6 章 信息的度量和作用

什么是熵

一条信息的信息量和他的不确定性有直接的关系。

简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。

从微观看,熵就表现了这个系统所处状态的不确定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的平均信息量(平均不确定程度)

当然,香农用“比特”(Bit)这个概念来度量信息量。一个比特是一位二进制数。信息量的比特数和所有可能情况的对数函数\log有关(无特殊说明该对数一律以2为底)。

信息熵

即我们弄清楚一件事所需要的信息量。信息量就等于不确定性的多少。假设一件事由n部分组成,每件事发生的概率为p_i,则该事信息嫡为:

(6.1)

其单位是比特。可以用来衡量统计语言模型的好坏。

对于任意一个随机变量X,其熵定义为:

熵的定义(6.2.a)
熵的定义(6.2.b)

变量的不确定性越大,熵也就越大。

信息的作用在于消除不确定性,这些信息可以针对事物本身,也可以是与关注对象相关的信息。

简单的例子来说明下,比如:假定一个六合彩由8个随机的十进制数(0~9)组成,我们都知道某一个中奖号码的信息量是8(个十进制数),怎么计算的呢?

显然,有:8=-\log_{10} (\frac{1}{10^{8} } ), 其中,\frac{1}{10^{8} } 是每种中奖组合的概率,-\log_{m} (p)就表示自信息,记做:I_{i}=-\log_{m} (p_{i})

我们再看信息熵的计算公式,其实就是求自信息的数学期望H(X)=\sum_{i=1}^{n}{p_{i}I_{i}}

补充说明下,我们在软件开发过程中经常说的bit就是香农在信息论中提出的单位,信息熵就是信息在传播中的最小编码长度。上述公式中m=2时计算出的熵以bit为单位。

条件熵

假定XY是两个随机变量,我们知道了YX一起出现的概率,以及X的概率,那我们就可以求出Y的概率。

定义在Y条件下X的条件熵为:

​Y条件下X​的条件熵(6.3)

并且H\left( X \right) \geqslant H\left( X\mid Y \right),也就是说多了Y的信息,关于X的不确定性下降了。

互信息

就是对两个随机事件“相关性”的量化度量。

例举互信息在解决词义二义性上的运用,bush一词可以解释为:灌木丛、布什,区分办法如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如:总统、美国、国会等;同理找出和灌木丛一起出现的互信息量大的词,比如土壤、树木、植物等。翻译时,看看上下文中哪类相关的词多就可以了。

假定有两个随机事件XY,它们的互信息定义如下:

随机事件X和Y的互信息定义(6.4)

可不必关心公式本身,其即是:

随机事件X和Y的互信息定义(6.5)

并且互信息的取值范围为:I\left( X;\ Y \right) \in \left[ \text{0, }\min \left( H\left( X \right) ,\ H\left( Y \right) \right) \right] 。当XY完全相关时,它的取值是1;当二者完全无关时,它的取值是0

相对熵(交叉熵)

相对熵用来衡量两个取值为正数的函数相似性。其定义如下:

相对熵的定义(6.6)

同样,不必关心公式本身,只需记住下面三条结论:

  1. 对于两个完全相同的函数,它们的相对熵对于零。

  2. 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数的差异越小。

  3. 对于概率分布或者概率密度函数,如果取值均对于零,相对熵可以度量两个随机分布的差异性。

如用来衡量两个常用词在不同文本中的概率分布,看它们是否同义,或者根据两篇文章中不同词的分布,看看它们的内容是否相近。

因为有了上下文条件,所以对于高阶的语言模型,应该用条件熵;如果再考虑从训练语料和真实应用的文本中得到的概率函数有偏差,就需要再引入相对熵的概念。

小结

信息熵不仅是对信息的量化度量,而且是整个信息论的基础。

Last updated