第8章 简单之美——布尔代数和搜索引擎的应用
技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道。追求术的人一辈子工作都很辛苦,只有掌握了搜索的本质和精髓才能游刃有余。真正做好一件事没有捷径,作者在Google做搜索时,每天至少要分析20个左右不好的搜索结果。
搜索引擎的原理
自动下载尽可能多的网页。
建立快速有效的索引。
根据相关性对网页进行公平准确的排序。
布尔代数
元素(真、假)、基本运算(与、或、非)。文献检索时,需要根据是否含关键字返回相应的参数:真或假。这样逻辑推理和计算就合二为一了。
索引
是一张大表,表的每一行对应一个关键字,以及包含该关键字的文献序号。为方便网页排名,索引中还有一些附加信息,诸如每个词出现的位置、次数等等,使得索引变得非常之大,一台服务器难以存储。普遍的做法是根据网页的序号将索引分成很多份,分别存储在不同的服务器中,这些服务器同时并行处理用户的请求,并把结果送到主服务器进行合并处理,最终将结果返回给用户。
需要根据网页的重要性、质量和访问的频率建立常用和非常用等不同级别的索引。常用的索引需要访问速度快、更新快,附加信息多。
小结
布尔代数将逻辑和数学合二为一。
“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的。” 牛顿
Last updated