读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 两种计算方法
  • 计算向量余弦的技巧
  • 小结

第 14 章 余弦定理和新闻分类

Previous第 13 章 Google ak-47 的设计者Next第 15 章 矩阵运算和文本处理中的两个分类问题

Last updated 6 years ago

对于一篇新闻中所有的实词,计算出它们的 TF-IDF 值,没有出现的词的 TF-IDF 为零。把这些词按照对应的实词在词汇表的位置依次排列,就得到一个多维向量,即该新闻的特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献度。

同一类新闻一定是某些主题词用得较多,即它们的特征向量在某几个维度上的值都比较大。如果不属于同一类,则较大的特征向量应该没什么交集。由于每篇新闻的文本长度不同,所以特征向量各个维度的数值也不同。单纯比较各个维度的大小没有太大意义。但是向量的方向却有很大意义。如果两个向量的方向一字,说明对应的新闻用词的比例也基本一致。因此可以利用余弦定理计算两个向量的夹角来判断对应新闻主题的接近程度。

三角形A角的余弦(14.1)

若将三角形的两边和看成是两个以为起点的向量,则上述公式等价于:

两种计算方法

  • 第一种假设我们已知一些新闻类别的特征向量,计算出要被分类的新闻和各类新闻特征向量的余弦相似性,余弦越小,相似度越高。

  • 第二种假设我们不知道这些新闻类别的特征向量,则我们要计算出所有新闻两两之间的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类,然后把每个小类中的所有新闻作为一个整体,并计算出小类的特征向量,再计算出所有小类之间两两的余弦相似性,然后把小类合并成大一点的小类,以此类推,直到小类之间的余弦相似度很小时,就可以停止迭代了。

计算向量余弦的技巧

计算 N 篇新闻之间的两两相关性,一次迭代计算复杂度为 N 方,计算量较大。简化方法如下:首先,分母(向量的长度)不需要重复计算,第一次计算余弦以后,长度可以存起来。其次,只考虑向量中的非零元素即可,这样一来复杂度取决于两个向量中非零元素个数的最小值。第三,删除虚词,如“因为、是、的、如果”等等,既提高了计算速度,又减少了干扰。

标题中的词对主题的贡献要大于正文中的;出现在文章首尾中的词比中间部分的词重要。所以,可以对重要位置的词进行额外的加权,以提高文本分类的准确性。

小结

求特征向量时,要先计算TF-IDF(即每篇文章中关键词的词频 乘以 关键词的权重。权重与关键词在语料库文章中的集中/分散程度,以及关键字在文章中的位置有关。)。计算余弦相似度时,要注意矩阵存储大小及计算复杂度。

(14.2)
c
A
b