读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 最大嫡原理
  • 最大熵模型的训练
  • 小结

第 20 章 谈谈最大熵模型

Previous第 19 章 谈谈数学模型的重要性Next第 21 章 拼音输入法的数学原理

Last updated 6 years ago

我们在投资的时候常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。

最大熵,说白了,就是要保留全部的不确定性,将风险降到最小。

最大嫡原理

最大熵原理指出,需要对一个随机事件分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测风险最小。因为这时,概率分布的信息嫡最大,所以叫“最大嫡模型”。 通俗理解就是当我们遇到不确定性时,就要保留各种可能性。

匈牙利著名数学家、信息论最高奖香农奖得主希萨(I.Csiszar)证明:对任何一组不自相矛盾的信息,最大熵模型不仅存在而且是唯一的。并且都有同一个非常简单的形式--指数函数。最大熵模型计算量很大,宾夕法尼亚大学马库斯教授的高徒拉纳帕提(Adwait Ratnaparkhi)找到几个最适合用最大熵模型且计算量相对不太大的自然语言处理问题,比如词性标注、句法分析。他成功将上下文信息、词性(名词、动词、形容词)以及主谓宾等句子成分,通过最大熵模型结合起来,做出当时世界上最好的词性标注系统和句法分析器。

最大熵模型的训练

最大熵模型实际上非常复杂,计算量非常大。

假定搜索的排序需要考虑 20 种特征,需要排序的网页是,那么即使这些特征相互独立,对应的最大熵模型也是“很长”的:

(20.1)

其中归一化因子

最原始的最大熵模型训练方法为通用迭代算法GIS(Generalized Iterative Scaling),其原理大致为:

  1. 假定第零次迭代的初始模型为等概率的均匀分布。

  2. 用第N次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小,否则变大。

  3. 重复步骤 2 直到收敛。

这种训练方法为典型的期望值最大化算法(Expectation Maximization,简称EM),由希萨解释清楚这种算法的物理含义。由于GIS算法每次迭代时间很长,需要迭代很多次才收敛,且不太稳定,因此很少实际使用,只通过其来了解最大熵模型的算法。之后达拉.皮垂兄弟对其改进,提出了改进迭代算法IIS(Improved Iterative Scaling),使最大熵模型训练时间缩短一两个数量级,吴军在约翰.霍普金斯大学读博士时发现一种数学变换,又将训练时间在IIS基础上减少两个数量级。

小结

最大熵模型形式简单,从效果上看是唯一一种既能满足各种信息源的限制条件又能保证平滑性的模型,但实现复杂,计算量巨大。

(20.2)

其中归一化因子保证概率加起来等于1,参数需要通过模型训练获得。

Z
\lambda
\{x_1,\ x_2,\ \cdots ,\ x_{20}\}
d