第 18 章 闪光的不一定是金子——谈谈搜索引擎
搜索反作弊也存在道和术两种境界
术:分析作弊的例子,分析它,然后清除它,这种方法能解决问题,且不需要太动脑筋,但工作量较大,难以从个别现象上升级到普遍规律。
道:通过具体的作弊例子,找到作弊的动机和本质,从本质上解决问题。
在通信中解决噪音抗干扰问题的基本思路有两条
从信息源出发,加强通信(编码)自身的抗干扰能力。
从传输上看,过滤掉噪音,还原信息。
卖链接的网站,都有大量的出链。每一个网站到其它网站的出链数目可以作为一个向量,它是网站的固有特征。既然是向量就可以计算出余弦距离。通常情况下,这些网站的出链向量之间的余弦距离几乎为1。
运用图论。作弊网站一般需要互相链接,以提高排名。这样就在互联网这张大图中形成了一些Clique。
小结
作弊的本质是在网页排名信号中加入了噪声,因此饭作弊的关键是去噪声。
Last updated