读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 常见分词方法——查字典
  • 处理二义性
  • 关于词的颗粒度和层次
  • 分词器的准确性
  • 小结

第 4 章 谈谈中文分词

利用统计模型进行自然语言处理,这些语言模型是建立在词的基础上的,因为词是语义的最小单位。在此之前,需要对句子进行分词。

常见分词方法——查字典

把一个句子从左往右扫描一遍,遇到字典里有的词就标识出来,遇到复核词(如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词。该方法能解决七八成问题,然而对二义性的分割无能为力(如发展-中-国家、发展-中国-家)。

处理二义性

最好的分词方法应该保证分完词后,该句子出现的概率最大,但是如果穷举所有的分词方法并计算所有可能的概率,计算率太大。对此,不同的应用,分词的颗粒度应采用不同的大小,即不同的应用应该有不同的分词系统。

关于词的颗粒度和层次

不同的人对词的切分方法差异甚大,其主要原因是对词的颗粒度的认识不一致。在不同的应用中,词的颗粒度可能很不一样,如在机器翻译中,颗粒度大翻译效果好,在网页搜索中则相反。如果对不同的应用构造不同的分词系统,会很浪费,最好的方法是让一个分词器同时支持不同层次的词的切分,然后由不同的应用自行决定采用哪个颗粒的切分。

分词器的准确性

应避免越界型错误、覆盖型错误、颗粒不一致。越界型错误,如“北京大学生”分为“北京大学——生”。覆盖型错误,如"贾里尼克”拆成了四个字。错误要尽可能消除。关于颗粒不一致,需要多做些数据挖掘工作,完善不同应用的复合词词典。

小结

不同人做的分词器有好有坏,其差别主要在于数据的使用和工程实现的精度。

Previous第 3 章 统计语言模型Next第 5 章 隐含马尔可夫模型

Last updated 7 years ago