读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 自然语言的发展
  • 句法分析
  • 基于统计方法的发展
  • 小结

第 2 章 自然语言规则——从规则到统计

Previous第 1 章 文字和语言 vs 数字和信息Next第 3 章 统计语言模型

Last updated 7 years ago

自然语言的发展

第一阶段:局限在人类学习语言的方式上(即句法分析)。

第二阶段:基于数学模型和统计的方法,并取得突破。

句法分析

将句子分为主语、动词短语(即谓语)、句号三部分,然后对每一个部分进行分析,得到语法分析树。

语法分析树的不足之处

  • 一个短短的句子需要很复杂的文法规则,这些文法规则写到后来甚至会出现矛盾,为了解决这些矛盾,还需要说明各个规则特定的使用环境。

  • 自然语言中的词很难用文法去描述,严重依赖于上下文,甚至是“世界知识”或者“常识”,所以很难用计算机去解析。

基于统计方法的发展

  • 上世纪70年代,IBM利用统计方法将语音识别率从70%提到90%,基于统计的方法核心模型是通信系统加隐含马尔科夫模型(这个系统的输入输出都是一维符号系列,且保持原有次序)。

  • 80年代,IBM提出提出基于统计的机器翻译方法,因数据、模型欠缺,解决不了语序颠倒问题。

  • 90年代,随着计算机能力的提高和数据量的增加,统计方法得以实现。

小结

基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。

句子的语法分析树