读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 搜索反作弊也存在道和术两种境界
  • 在通信中解决噪音抗干扰问题的基本思路有两条
  • 小结

第 18 章 闪光的不一定是金子——谈谈搜索引擎

搜索反作弊也存在道和术两种境界

  • 术:分析作弊的例子,分析它,然后清除它,这种方法能解决问题,且不需要太动脑筋,但工作量较大,难以从个别现象上升级到普遍规律。

  • 道:通过具体的作弊例子,找到作弊的动机和本质,从本质上解决问题。

在通信中解决噪音抗干扰问题的基本思路有两条

  • 从信息源出发,加强通信(编码)自身的抗干扰能力。

  • 从传输上看,过滤掉噪音,还原信息。

卖链接的网站,都有大量的出链。每一个网站到其它网站的出链数目可以作为一个向量,它是网站的固有特征。既然是向量就可以计算出余弦距离。通常情况下,这些网站的出链向量之间的余弦距离几乎为1。

运用图论。作弊网站一般需要互相链接,以提高排名。这样就在互联网这张大图中形成了一些Clique。

小结

作弊的本质是在网页排名信号中加入了噪声,因此饭作弊的关键是去噪声。

Previous第 17 章 谈谈密码学的数学原理Next第 19 章 谈谈数学模型的重要性

Last updated 6 years ago