读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 拼音转汉字的算法
  • 个性化的语音模型
  • 小结

第 21 章 拼音输入法的数学原理

Previous第 20 章 谈谈最大熵模型Next第 22 章 自然语言处理的教父马库斯和他的优秀弟子们

Last updated 6 years ago

输入法输入汉字的快慢取决于对汉字编码的平均长度,即击键次数乘以寻找这个键所需要的时间。

拼音输入法的优点:

  1. 不需要专门学习;

  2. 输入自然,不会中断思维,也就是说找每个键的时间非常短。

  3. 因为编码长,有信息冗余,容错性好。如果把字换成词,每个汉字的信息嫡将会减少。如果能更多地利用上下文相关性,当输入一半的时候,可能已经看到自己要找的字了。

拼音转汉字的算法

输入法就是将拼音串变为汉字串的转换器。一个拼音可以对应多个汉字,把一个拼音对应的汉字从左到右连起来,就是一张有向图,它被称为网格图或篱笆图。

从第一个汉字到最后一个汉字可以对应很多很多句子,每一个句子和图中的一条路径一一对应。拼音输入法就是要根据上下文在给定拼音条件下找到一个最优的句子(可以参考隐含马尔可夫,前后汉字关系可以只考虑二阶关系,求出概率最大的句子)。

个性化的语音模型

每个人的输入习惯不同,可以找到大量符合用户经常输入的内容和用语习惯的语料,训练出一个用户特定的语言模型,步骤如下:

  1. 将训练语言模型的文本按照主题分成很多不同的类别,对于每个类,找出它们的特征向量。

  2. 统计某个人输入的文本,得到他输入的词的特征向量 。

  3. 计算和每个分类特征向量的余弦相似度,并选择前个和距离最近的类对应的文本,作为这个特定用户的语言模型训练数据。

  4. 训练出用户特定的语言模型。大部分情况下,对这个用户的输入比通用模型 要好。但是相对于偏僻的内容,覆盖语言较少,效果就不如了。所以最好是综合二者(线性关系)。

小结

汉字的输入过程本身就算人和计算机的通信,好的输入法会自觉或者不自觉地遵守通信的数学模型。

Y
Y
Y
K
M_1
M_1
M_1
M_0
M_0