tf-idf 计算查询语句和文档的相关性
1. 背景
1.1 搜索检索问题
在互联网中,用户越来越多的依赖通过搜索关键词来获得想要的相关内容,如何快速准确为用户提供相应的结果成为一个重要的课题
用户的搜索行为通常可以简化为从一个数据集合中查询一个子集的过程,举个栗子:首先限制数据集合为英文集合(主要是英文分词比较好办,中文等一些语言还需要设计到分词的算法),然后从这些英文集合中搜索一些英文文档,将问题简化一下就是计算“查询的英文文档”和全部的“英文数据集合”中各个文档的相关性
接下来我们用更加具体化的方式来说明一下这个问题,首先我们有一个文档数据集合\(D\),用户的搜索语句为\(q=w_1,w_2,...,w_n\),其中\(w_i\)代表具体的单词,接下来我们期望给用户返回一个数据\(D\)的子集 \(D^*\),对于任何一个 \(d \in D^*\),最大化概率 \[P(d|q,D)\] 上面的思想是通过引入概率和统计的方式计算出具体的数值,同时还有一些基于向量的方案来优化检索的过程
1.2 Ad-Hoc检索算法
在介绍TF—IDF算法之前我们先来探讨一些已有的模型,首先是如同上面提出的基于统计的最直接的方法,这种方法
...