读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 信息指纹的用途
  • 小结

第 16 章 信息指纹及其应用

一段文字所包含的信息,就是它的信息嫡。如果对这段信息进行无损压缩编码,理论上编码后的最短长度就是它的信息嫡。但是,如果仅仅要区分两段文字或者图片,则远不需要那么长的编码。任何一段信息,都可以对应一个不太长的随机数,作为区分它和其他信息的指纹。

信息指纹的用途

  • 网址消重:比如一般网址由字符串组成,长度不固定,所以查找困难,占用容量较大。可以将字符串看成是一个特殊的、长度很长的整数,利用伪随机数产生算法器,将其转换成特定长度的伪随机数,即信息指纹。

  • 密码:cookie也是一种信息指纹,网站无法根据信息指纹了解用户的身份,这样可以起到保护隐私的作用。信息指纹具有不可逆性。

  • 网络爬虫:可以利用信息指纹判断一个网址是否已经下载过。

  • 判定集合相同:计算两个集合元素的信息指纹,由于加法的交换律,保证集合的指纹不因元素出现的次序而改变,如果两个集合元素相同,那么它们的信息指纹一定相同。

  • 判定集合基本相同:比较两个网页是否相同,只需找出每个网页中IDF最大的几个词,计算并比较他们的信息指纹。

  • 反盗版:提取并比较视频的关键帧。

小结

信息指纹可以理解成将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间的一个点(一个二进制数字)。

Previous第 15 章 矩阵运算和文本处理中的两个分类问题Next第 17 章 谈谈密码学的数学原理

Last updated 6 years ago