读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 搜索引擎的原理
  • 布尔代数
  • 索引
  • 小结

第8章 简单之美——布尔代数和搜索引擎的应用

技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道。追求术的人一辈子工作都很辛苦,只有掌握了搜索的本质和精髓才能游刃有余。真正做好一件事没有捷径,作者在Google做搜索时,每天至少要分析20个左右不好的搜索结果。

搜索引擎的原理

  • 自动下载尽可能多的网页。

  • 建立快速有效的索引。

  • 根据相关性对网页进行公平准确的排序。

布尔代数

元素(真、假)、基本运算(与、或、非)。文献检索时,需要根据是否含关键字返回相应的参数:真或假。这样逻辑推理和计算就合二为一了。

索引

是一张大表,表的每一行对应一个关键字,以及包含该关键字的文献序号。为方便网页排名,索引中还有一些附加信息,诸如每个词出现的位置、次数等等,使得索引变得非常之大,一台服务器难以存储。普遍的做法是根据网页的序号将索引分成很多份,分别存储在不同的服务器中,这些服务器同时并行处理用户的请求,并把结果送到主服务器进行合并处理,最终将结果返回给用户。

需要根据网页的重要性、质量和访问的频率建立常用和非常用等不同级别的索引。常用的索引需要访问速度快、更新快,附加信息多。

小结

布尔代数将逻辑和数学合二为一。

“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的。” 牛顿

Previous第 7 章 贾里尼克和现代语言处理Next第 9 章 图论和网络爬虫

Last updated 7 years ago