Peter's blog

  • 首页
  • 分类
  • 关于
  • 归档
  • 标签

tf-idf 计算查询语句和文档的相关性

发表于 2017-04-20 | 更新于 2020-03-29 | 分类于 算法
1. 背景 1.1 搜索检索问题 在互联网中,用户越来越多的依赖通过搜索关键词来获得想要的相关内容,如何快速准确为用户提供相应的结果成为一个重要的课题 用户的搜索行为通常可以简化为从一个数据集合中查询一个子集的过程,举个栗子:首先限制数据集合为英文集合(主要是英文分词比较好办,中文等一些语言还需要设计到分词的算法),然后从这些英文集合中搜索一些英文文档,将问题简化一下就是计算“查询的英文文档”和全部的“英文数据集合”中各个文档的相关性 接下来我们用更加具体化的方式来说明一下这个问题,首先我们有一个文档数据集合\(D\),用户的搜索语句为\(q=w_1,w_2,...,w_n\),其中\(w_i\)代表具体的单词,接下来我们期望给用户返回一个数据\(D\)的子集 \(D^*\),对于任何一个 \(d \in D^*\),最大化概率 \[P(d|q,D)\] 上面的思想是通过引入概率和统计的方式计算出具体的数值,同时还有一些基于向量的方案来优化检索的过程 1.2 Ad-Hoc检索算法 在介绍TF—IDF算法之前我们先来探讨一些已有的模型,首先是如同上面提出的基于统计的最直接的方法,这种方法 ...
阅读全文 »

Apache NiFi简介

发表于 2017-03-30 | 更新于 2020-03-29 | 分类于 apache nifi
1. 背景 Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。2015年7月20日,Apache 基金会通过其博客宣布Apache NiFi顺利孵化完成称为Apache的顶级项目之一。NiFi初始的项目名称是Niagarafiles,当NiFi项目开源之后,一些早先在NSA(美国国家安全局)的开发者们创立了初创公司Onyara,Onyara随之继续NiFi项目的开发并提供相关的支持。Hortonworks公司最近收购了Onyara并将其开发者整合到自己的团队中。apache nifi 也成为了Hortonworks进军物联网的利器。 2. nifi是什么 简单的来说nifi的建立是为了使各个系统之间的”数据流“自动化,“数据流”这个词代表着多种含义,这里提到的数据流特指自动化和可管理的信息流。自从企业中出现多个系统之后,要面临的首要任务是解决数据生产系统与数据处理系统之间的数据处理流。自从这个问题面世以来,人们已经广泛的探讨了解决方案,其中《Enterprise Integration Patterns》一书提出 ...
阅读全文 »
<i class="fa fa-angle-left"></i>12
Peter Xu

Peter Xu

12 日志
3 分类
6 标签
© 2020 Peter Xu
由 Hexo 强力驱动
主题 - NexT.Mist