Peter's blog

  • 首页
  • 分类
  • 关于
  • 归档
  • 标签

特征工程

发表于 2020-03-29 | 更新于 2020-03-29
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下: 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了; 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR’03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的模型; 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验; ...
阅读全文 »

ElasticSearch

发表于 2020-03-29 | 更新于 2020-03-29
倒排 Lucene 分布式 Elasticsearch
阅读全文 »

推荐系统2

发表于 2020-03-28 | 更新于 2020-03-29
基于相似的算法 基于相似的推荐算法代表着推荐系统中最成功的一种,他们已经被广泛研究并在电子商务中的建立了各种应用[117,118]。这类算法可以进一步分为基于用户(user-base)和基于项目(item-base)相似度的方法。基于用户相似性的方法的基本假设是,在过去的评价一致的人在未来的评价中往往会再次一致。因此,对于目标用户,根据与目标用户相似的用户(“品味对象”)的评价来估计对象的潜在评价(参见图5作为示意图)。与用户相似度不同,基于项目相似度的算法向用户推荐与用户之前收集的对象相似的对象。请注意,有时来自不相似用户(兴趣不同)[119]或负面评价[120,121]的意见在确定推荐系统过程中可能发挥重要(甚至是积极的)作用,特别是当数据集非常稀疏时,因此关联性的信息比相似性信息更加重要[122]。有关更多信息,请参阅最近的回顾文章[123,124],[125]是一个很好的综述,其中包含许多相似性指数。 算法 这里我们简要的介绍常规的基于相似度的算法即常说的基于记忆的协同过滤技术。 “协同过滤”一词由第一个商业推荐系统的创作者Tapestry [126]引入,他源于这样一 ...
阅读全文 »

pilosa-data-mode

发表于 2019-02-02 | 更新于 2020-03-29
数据模型 概观 Pilosa数据模型核心就是布尔矩阵,矩阵中的每个单元是一个位(计算机存储最小单位),每一个bit代表着行和列之间存在关系(通常是是或者否) 任何的实体都可以成为行和列,行和列也可以是同样的实体比如bigraph。Pilosa可以将任意键/值对(称为属性)与行和列相关联,但查询和存储在围绕矩阵核心进行优化。 Pilosa lays out data first in rows, so queries which get all the set bits in one or many rows, or compute a combining operation—such as Intersect or Union—on multiple rows, are the fastest. Pilosa categorizes rows into different fields and quickly retrieves the top rows in a field sorted by the number of columns set in each row. Please ...
阅读全文 »

采用hue使用oozie调度sqoop问题

发表于 2018-01-27 | 更新于 2020-03-29
环境 软件 版本 备注 HDP 2.6.3 2rm+3nm(=48g,24c)+1client Hue 4.1.0 client节点 centos 7.0 其他: slave2+master1在一个母机 slave1,slave3,master2在一个母机 母机之间是万兆网卡 部署过程 运维帮忙安装必要的依赖包(curl,jdk8+,ntp,openssl 1.01,python 2.7.x ,rpm,scp,tar,unzip,wget,yum) 通过ambari先部署的hdp基础的hadoop环境,然后部署的oozie,保证配置,软件环境等一致。 调试过程 在Hue的editor下使用sqoop执行 1import --connect jdbc:mysql://xx:3306/xx --username xx --password xx --table weight --hive-table tmp.test --hive-import --hive-overwrite -m 1 问题1:只安装了jre没有安装jdk 主要报错内容 113 ...
阅读全文 »

推荐系统简介

发表于 2017-09-28 | 更新于 2020-03-29
摘要 互联网的持续爆发式扩张极大的增加了采用推荐系统过滤大量的信息的必要性,推荐系统被社会学,计算学物理学家和交叉学科等大量学界进行了广泛的研究 ,尽管取得了实质性的理论和实践成果,缺乏统一方法对不同的推荐算法比较,阻碍了其进一步的进步。在本文中,我们回顾了推荐系统的最新进展,并讨论了主要挑战。我们对比并评估了已有的算法,并推测他们在未来的发展中扮演的角色。除了算法之外,我们还从物理的角度来描述推荐系统的宏观行为。我们讨论了推荐系统潜在的影响和未来的发展。我们在此强调:推荐系统有很强的科学深度并结合了不同的研究领域,吸引着物理学家以及交叉学科研究人员的兴趣。 序言 由于计算机和计算机网络,我们的社会各方面都经历着翻天覆地的变化,我们在线购物,通过搜索引擎搜集信息,在互联网上进行很大部分的社会活动。事实上,我们大量的行为和交互都以电子的方式存储,这给了研究人员机会在更加细尺度来研究社会经济和技术社会系统,传统的“软学科”,比如社会学和经济学,通过对这些已有的新数据的研究已经发展了许许多多的研究分支,在数据驱动研究方面有着长期经验的物理学家,也已经加入了这一趋势,为诸如金融[3,4],网络 ...
阅读全文 »

各种基础分布

发表于 2017-09-06 | 更新于 2020-03-29
连续 Β 柯西 χ² 指数 F Γ 拉普拉斯 对数正态 正态 帕累托 学生t 均匀 韦伯 离散 伯努利 二项 离散均匀 几何 超几何 负二项 泊松
阅读全文 »

nifi架构

发表于 2017-06-06 | 更新于 2020-03-29 | 分类于 apache nifi
nifi是运行在jvm上的一个软件,NIFI的主要组成部分如下: Web Server(网络服务) Web Server的主要作用是提供网页服务和rest api Flow Controller(流控制器) Flow Controller是NIIF操作的大脑。它为处理器(processor)提供线程执行任务,同时管理处理器的执行调度 Extensions(Preocessor处理器) NIFI中拥有众多的类型处理器,主要分为以下几类: Data Transformation(数据转换) Routing and Mediation(路由和调解) Database Access(数据库访问) Attribute Extraction(属性提取) System Interaction(系统交互) Data Ingestion(数据撷取) Data Egress / Sending Data(数据出口/数据发送) Splitting and Aggregation(拆分和聚合) HTTP Amazon Web Services(亚马逊网络服务) FlowFile Reposito ...
阅读全文 »

hexo写博客

发表于 2017-05-27 | 更新于 2020-03-29 | 分类于 hexo
1.背景 自己在不断的学习,需要一个地方来记录,写博客也是能够对已经学过的东西进行一次系统的梳理,有利于对知识的巩固。但是博客就要考虑写和放的问题,写-自然就选择用markdown了,主要考虑它是一个轻格式的,能够支持绝大部分的html格式,这也是现在写博客的主流。放选择了GitHub Page,主要是不用钱,还可以顺道学习一下git相关的知识。 2.hexo是什么 hexo是基于Node.js的快速、简洁且高效的博客框架,能够快速的对markdown文件渲染为html,支持一键部署到GitHub Page,有着丰富的插件。hexo官方文档十分详实,从如何安装到文章发布,从切换主题到嵌入第三方服务,这里只做简单的摘抄,详细的过程还是需要参考文档 首先,hexo的使用需要一些基本软件的支持,分别是node和git。 123brew install nvm ##安装Node.js版本管理的工具nvmnvm install stable ##安装最新稳定版本的nodebrew install git ##安装git,目前世界上最先进的分布式版本控制系统 hexo的安装部署很方便: 12345 ...
阅读全文 »

Lucene 打分算法

发表于 2017-04-20 | 更新于 2020-03-29 | 分类于 算法
Lucene是什么 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,同时提供python接口(pylucene)。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 Lucene数学模型 文档,域(字段),词元 文档是Lucene搜索和索引的原子单位,文档为包含一个或者多个域(字段)的容器,而域(字段)则是依次包含“真正的”被搜索的内容,域(字段)值通过分词技术处理,得到多个词元。 举个栗子,一篇小说(斗破苍穹)信息可以称为一个文档,小说信息又包含多个域(字段),例如:标题(斗破苍穹)、作者、简介、最后更新时间等等,对标题这个域(字段)采用分词技术又可以得到一个或者多个词元(斗、破、苍、穹)。 Lucene检索过程 打分算法 BIR(布尔模型) 布尔逻辑将是建立最早的模型 ...
阅读全文 »
12<i class="fa fa-angle-right"></i>
Peter Xu

Peter Xu

12 日志
3 分类
6 标签
© 2020 Peter Xu
由 Hexo 强力驱动
主题 - NexT.Mist