第 18 章 闪光的不一定是金子——谈谈搜索引擎

搜索反作弊也存在道和术两种境界

  • 术:分析作弊的例子,分析它,然后清除它,这种方法能解决问题,且不需要太动脑筋,但工作量较大,难以从个别现象上升级到普遍规律。

  • 道:通过具体的作弊例子,找到作弊的动机和本质,从本质上解决问题。

在通信中解决噪音抗干扰问题的基本思路有两条

  • 从信息源出发,加强通信(编码)自身的抗干扰能力。

  • 从传输上看,过滤掉噪音,还原信息。

卖链接的网站,都有大量的出链。每一个网站到其它网站的出链数目可以作为一个向量,它是网站的固有特征。既然是向量就可以计算出余弦距离。通常情况下,这些网站的出链向量之间的余弦距离几乎为1。

运用图论。作弊网站一般需要互相链接,以提高排名。这样就在互联网这张大图中形成了一些Clique。

小结

作弊的本质是在网页排名信号中加入了噪声,因此饭作弊的关键是去噪声。

Last updated