第 6 章 信息的度量和作用
Last updated
Last updated
一条信息的信息量和他的不确定性有直接的关系。
简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。
从微观看,熵就表现了这个系统所处状态的不确定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的平均信息量(平均不确定程度)。
当然,香农用“比特”(Bit)这个概念来度量信息量。一个比特是一位二进制数。信息量的比特数和所有可能情况的对数函数有关(无特殊说明该对数一律以为底)。
即我们弄清楚一件事所需要的信息量。信息量就等于不确定性的多少。假设一件事由部分组成,每件事发生的概率为,则该事信息嫡为:
其单位是比特。可以用来衡量统计语言模型的好坏。
变量的不确定性越大,熵也就越大。
信息的作用在于消除不确定性,这些信息可以针对事物本身,也可以是与关注对象相关的信息。
简单的例子来说明下,比如:假定一个六合彩由8个随机的十进制数(0~9)组成,我们都知道某一个中奖号码的信息量是8(个十进制数),怎么计算的呢?
补充说明下,我们在软件开发过程中经常说的bit就是香农在信息论中提出的单位,信息熵就是信息在传播中的最小编码长度。上述公式中m=2时计算出的熵以bit为单位。
就是对两个随机事件“相关性”的量化度量。
例举互信息在解决词义二义性上的运用,bush一词可以解释为:灌木丛、布什,区分办法如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如:总统、美国、国会等;同理找出和灌木丛一起出现的互信息量大的词,比如土壤、树木、植物等。翻译时,看看上下文中哪类相关的词多就可以了。
可不必关心公式本身,其即是:
相对熵用来衡量两个取值为正数的函数相似性。其定义如下:
同样,不必关心公式本身,只需记住下面三条结论:
对于两个完全相同的函数,它们的相对熵对于零。
相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数的差异越小。
对于概率分布或者概率密度函数,如果取值均对于零,相对熵可以度量两个随机分布的差异性。
如用来衡量两个常用词在不同文本中的概率分布,看它们是否同义,或者根据两篇文章中不同词的分布,看看它们的内容是否相近。
因为有了上下文条件,所以对于高阶的语言模型,应该用条件熵;如果再考虑从训练语料和真实应用的文本中得到的概率函数有偏差,就需要再引入相对熵的概念。
信息熵不仅是对信息的量化度量,而且是整个信息论的基础。
对于任意一个随机变量,其熵定义为:
显然,有:, 其中,是每种中奖组合的概率,就表示自信息,记做:。
我们再看信息熵的计算公式,其实就是求自信息的数学期望:
假定和是两个随机变量,我们知道了随一起出现的概率,以及的概率,那我们就可以求出的概率。
定义在条件下的条件熵为:
并且,也就是说多了的信息,关于的不确定性下降了。
假定有两个随机事件和,它们的互信息定义如下:
并且互信息的取值范围为:。当和完全相关时,它的取值是;当二者完全无关时,它的取值是。