读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page

第 15 章 矩阵运算和文本处理中的两个分类问题

Previous第 14 章 余弦定理和新闻分类Next第 16 章 信息指纹及其应用

Last updated 6 years ago

将文本按主题归类与将词汇表中的词按意思归类,需要多次迭代计算相似度,耗时较长。可以利用矩阵运算中的奇异值分解(Singular Value Decomposition,SVD)来一次性计算相关性。

首先,要用一个大矩阵描述成千上万篇文章和百万个词的关联性。在矩阵中,每一行对应一篇文章,每一列对应一个词,导致矩阵非常大。奇异值分解就是将大矩阵分解成三个小矩阵相乘,公式为:

(15.1)

第一个矩阵是对词进行分类的一个结果,每一行代表一个词,每一列表示一个语义相近的词类。第三个矩阵是对文本分类的结果,每一列对应一个文本,每一行对应一个主题,每一列可以只保留最大值,其余的都改为零,那么每一篇文本都被唯一地分到一类主题中。中间的矩阵则表示词的类和文章的类之间的相关性,每一行代表一篇文章,每一列代表一个词。

分解后,可以同时完成近义词分类和文章的分类,以及每个主题和每个词的语义类之间的相关性。

小结

相比于利用文本特征向量余弦的距离自底向上聚类的方法,奇异值分解的优点是能较快速地得到结果,因为它不需要一次次迭代。但这种方法得到的分类结果略显粗糙。实际工作中,可以先进行奇异值分解得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,迭代得到更精确的结果。

X
A
B
Y