第 2 章自然语言规则——从规则到统计

自然语言的发展

第一阶段：局限在人类学习语言的方式上（即句法分析）。

第二阶段：基于数学模型和统计的方法，并取得突破。

将句子分为主语、动词短语（即谓语）、句号三部分，然后对每一个部分进行分析，得到语法分析树。

上世纪70年代，IBM利用统计方法将语音识别率从70%提到90%，基于统计的方法核心模型是通信系统加隐含马尔科夫模型（这个系统的输入输出都是一维符号系列，且保持原有次序）。
80年代，IBM提出提出基于统计的机器翻译方法，因数据、模型欠缺，解决不了语序颠倒问题。
90年代，随着计算机能力的提高和数据量的增加，统计方法得以实现。

基于统计的自然语言处理方法，在数学模型上和通信是相通的，甚至就是相同的。

Last updated 7 years ago