特征工程

发表于 2020-03-29 | 更新于 2020-03-29

特征选择是特征工程中的重要问题（另一个重要的问题是特征提取），坊间常说：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集，工程上常用的方法有以下：计算每一个特征与响应变量的相关性：工程上常用的手段有计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性，但是计算相对复杂一些，好在很多toolkit里边都包含了这个工具（如sklearn的MINE），得到相关性之后就可以排序选择特征了；构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征，另外，记得JMLR’03上有一篇论文介绍了一种基于决策树的特征选择方法，本质上是等价的。当选择到了目标特征之后，再用来训练最终的模型；通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验； ...

阅读全文 »

ElasticSearch

发表于 2020-03-29 | 更新于 2020-03-29

倒排 Lucene 分布式 Elasticsearch

阅读全文 »

pilosa-data-mode

发表于 2019-02-02 | 更新于 2020-03-29

数据模型概观 Pilosa数据模型核心就是布尔矩阵，矩阵中的每个单元是一个位（计算机存储最小单位），每一个bit代表着行和列之间存在关系（通常是是或者否）任何的实体都可以成为行和列，行和列也可以是同样的实体比如bigraph。Pilosa可以将任意键/值对（称为属性）与行和列相关联，但查询和存储在围绕矩阵核心进行优化。 Pilosa lays out data first in rows, so queries which get all the set bits in one or many rows, or compute a combining operation—such as Intersect or Union—on multiple rows, are the fastest. Pilosa categorizes rows into different fields and quickly retrieves the top rows in a field sorted by the number of columns set in each row. Please ...

阅读全文 »

采用hue使用oozie调度sqoop问题

发表于 2018-01-27 | 更新于 2020-03-29

环境软件版本备注 HDP 2.6.3 2rm+3nm(=48g,24c)+1client Hue 4.1.0 client节点 centos 7.0 其他： slave2+master1在一个母机 slave1,slave3,master2在一个母机母机之间是万兆网卡部署过程运维帮忙安装必要的依赖包(curl,jdk8+,ntp,openssl 1.01,python 2.7.x ,rpm,scp,tar,unzip,wget,yum) 通过ambari先部署的hdp基础的hadoop环境，然后部署的oozie，保证配置，软件环境等一致。调试过程在Hue的editor下使用sqoop执行 1import --connect jdbc:mysql://xx:3306/xx --username xx --password xx --table weight --hive-table tmp.test --hive-import --hive-overwrite -m 1 问题1：只安装了jre没有安装jdk 主要报错内容 113 ...

阅读全文 »

各种基础分布

发表于 2017-09-06 | 更新于 2020-03-29

连续 Β 柯西 χ² 指数 F Γ 拉普拉斯对数正态正态帕累托学生t 均匀韦伯离散伯努利二项离散均匀几何超几何负二项泊松

阅读全文 »

nifi架构

发表于 2017-06-06 | 更新于 2020-03-29 | 分类于 apache nifi

nifi是运行在jvm上的一个软件,NIFI的主要组成部分如下： Web Server（网络服务） Web Server的主要作用是提供网页服务和rest api Flow Controller（流控制器） Flow Controller是NIIF操作的大脑。它为处理器（processor）提供线程执行任务，同时管理处理器的执行调度 Extensions（Preocessor处理器） NIFI中拥有众多的类型处理器，主要分为以下几类： Data Transformation（数据转换） Routing and Mediation（路由和调解） Database Access（数据库访问） Attribute Extraction（属性提取） System Interaction（系统交互） Data Ingestion（数据撷取） Data Egress / Sending Data（数据出口／数据发送） Splitting and Aggregation（拆分和聚合） HTTP Amazon Web Services（亚马逊网络服务） FlowFile Reposito ...

阅读全文 »

hexo写博客

发表于 2017-05-27 | 更新于 2020-03-29 | 分类于 hexo

1.背景自己在不断的学习，需要一个地方来记录，写博客也是能够对已经学过的东西进行一次系统的梳理，有利于对知识的巩固。但是博客就要考虑写和放的问题，写-自然就选择用markdown了，主要考虑它是一个轻格式的，能够支持绝大部分的html格式，这也是现在写博客的主流。放选择了GitHub Page，主要是不用钱，还可以顺道学习一下git相关的知识。 2.hexo是什么 hexo是基于Node.js的快速、简洁且高效的博客框架，能够快速的对markdown文件渲染为html，支持一键部署到GitHub Page，有着丰富的插件。hexo官方文档十分详实，从如何安装到文章发布，从切换主题到嵌入第三方服务，这里只做简单的摘抄，详细的过程还是需要参考文档首先，hexo的使用需要一些基本软件的支持，分别是node和git。 123brew install nvm ##安装Node.js版本管理的工具nvmnvm install stable ##安装最新稳定版本的nodebrew install git ##安装git，目前世界上最先进的分布式版本控制系统 hexo的安装部署很方便： 12345 ...

阅读全文 »

Lucene 打分算法

发表于 2017-04-20 | 更新于 2020-03-29 | 分类于算法

Lucene是什么 Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 Lucene总的来说是：一个高效的，可扩展的，全文检索库。全部用Java实现，同时提供python接口（pylucene)。仅支持纯文本文件的索引(Indexing)和搜索(Search)。 Lucene数学模型文档，域(字段)，词元文档是Lucene搜索和索引的原子单位，文档为包含一个或者多个域(字段)的容器，而域(字段)则是依次包含“真正的”被搜索的内容，域(字段)值通过分词技术处理，得到多个词元。举个栗子，一篇小说（斗破苍穹）信息可以称为一个文档，小说信息又包含多个域(字段)，例如：标题（斗破苍穹）、作者、简介、最后更新时间等等，对标题这个域(字段)采用分词技术又可以得到一个或者多个词元（斗、破、苍、穹）。 Lucene检索过程打分算法 BIR（布尔模型）布尔逻辑将是建立最早的模型 ...

阅读全文 »

特征工程

ElasticSearch

推荐系统2

pilosa-data-mode

采用hue使用oozie调度sqoop问题

推荐系统简介

各种基础分布

nifi架构

hexo写博客

Lucene 打分算法