第 11 章 如何确定网页和查询的相关性

搜索关键词权重的科学度量 TF-IDF

单文本词频:TF_{i} =\frac{| x_{i}|}{| N|} ,其中\left| x_{i}  \right|表示第i个词在网页中出现的次数, \left| N \right| 表示该网页的总词数,单文本词频就是指某个词在某篇网页上出现的频率。

逆文本频率指数(Inverse Document Frequency, IDF):IDF_i=\log \left( \frac{D}{D_w} \right) ,这个用来度量某个词w的权威性,D表示整个互联网的全部网页数,D_{w} 表示出现了w的网页的总数,w在一个网页中出现的次数越多表示该词与该网页越相关,但是w在所有网页中出现的次数越少表示该词越权威,这就是IDF_{i}

由单文本词频TF、逆文本频率指数IDF我们可以得到以下公式来表示查询文本和网页相关性:

查询文本和网页相关性(11.1)

这个公式其实是交叉熵的应用,后面会讲到。

具体例子: 我们平时使用搜索引擎进行搜索时搜索引擎是如何查找出与我们输入内容最相关的网页的呢?比如我们在搜索引擎中输入“原子能的应用”,那么搜索引擎是如何来搜索到我们想要的网页的呢?

首先我们把“原子能的应用”进行分词得到“原子能”“的”“应用”三个词;我们要找与这三个词相关的网页,那么这三个词在目标网页中出现的次数必定是较多的,但“的”字是个虚词,没有意义,应该剔除;“原子能”与“应用”这两个词很明显对主题的提示作用是不同的,“原子能”与用户感兴趣的主题更相关,这就涉及到权威性的考量。

假设一个网页有1000个词,“原子能”出现了5次,“的”出现了35次,“应用”出现了12次,那么相应的单文本词频分别是:0.005、0.035、0.012;又假定整个互联网所有的网页数目是10亿(当然远不止这么多),包含了“原子能”这个词的网页总共有200万个,包含“的”的网页总共10亿个(每个网页都会出现“的”字),包含“应用”的网页总共5亿个,所以相应的逆文本频率指数分别是:\log _2\left( \frac{10}{0.02} \right) =\log _2\left( 500 \right) =8.96\log _2\left( \frac{10}{10} \right) =0\log _2\left( \frac{10}{5} \right) =1,所以其与“原子能的应用”的相关性是:0.005*8.96+0.035*0+0.012*1=0.0448+0+0.012=0.0568,其中“原子能”贡献了0.0448,而“应用”只贡献了0.012,“的”字的贡献为0,与我们的直觉很相近。

小结

TF-IDF 是对搜索关键词的重要性的度量。

Last updated