第 2 章 自然语言规则——从规则到统计
Last updated
Last updated
第一阶段:局限在人类学习语言的方式上(即句法分析)。
第二阶段:基于数学模型和统计的方法,并取得突破。
将句子分为主语、动词短语(即谓语)、句号三部分,然后对每一个部分进行分析,得到语法分析树。
一个短短的句子需要很复杂的文法规则,这些文法规则写到后来甚至会出现矛盾,为了解决这些矛盾,还需要说明各个规则特定的使用环境。
自然语言中的词很难用文法去描述,严重依赖于上下文,甚至是“世界知识”或者“常识”,所以很难用计算机去解析。
上世纪70年代,IBM利用统计方法将语音识别率从70%提到90%,基于统计的方法核心模型是通信系统加隐含马尔科夫模型(这个系统的输入输出都是一维符号系列,且保持原有次序)。
80年代,IBM提出提出基于统计的机器翻译方法,因数据、模型欠缺,解决不了语序颠倒问题。
90年代,随着计算机能力的提高和数据量的增加,统计方法得以实现。
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。