2018-09-13 44 0

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。 GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中,Facebook使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估的准确性。 GBDT和LR的比较:LR使用的是log loss,GBDT使用的是平方误差,即squared loss。 Regression Decision Tree:回归树回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一

2017-07-05 1927 0

安装rabbitmq安装celery安装flower安装rabbitmq先安装erlang wget http://erlang.org/download/otp_src_20.0.tar.gztar xzf otp_src_20.0.tar.gz./configure --prefix=/usr/local --with-ssl -enable-threads -enable-smmp-support -enable-kernel-poll --enable-hipe --without-javac && make -j10 && make install然后下载rabbitmq,直接解压即可http://www.rabbitmq.com/releases/rabbitmq-server/v3.6.10/rabbitmq-server-generic-unix-3.6.10.tar.x

2017-07-05 1543 0

点击 Help -> SSL Proxying -> Install Charles Root Certificate,安装Charles证书,双击Charles证书,选择始终信任。 手机连接Charles代理,然后使用手机浏览器打开 chls.pro/ssl,安装证书。iOS 10.3系统,需要在 设置→通用→关于本机→证书信任设置 里面启用完全信任Charles证书。安卓系统在 设置->系统安全->从存储设备安装 安装证书,如果弹出“键入凭据存储的密码”,先给手机设置一个数字锁屏密码,安装之后再取消数字密码。 在需要抓包的链接上右键,Enable SSL Proxying。 注意 使用Charles抓包时不可连接VPN

2017-06-15 2209 0

pip 阿里云镜像npm 淘宝镜像homebrew 中科大镜像maven 阿里云镜像pip 阿里云镜像编辑配置文件 ~/.pip/pip.conf [global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host = mirrors.aliyun.comnpm 淘宝镜像编辑配置文件 ~/.npmrc registry=https://registry.npm.taobao.orghomebrew 中科大镜像homebrew主要分两部分:git repo(位于GitHub)和二进制bottles(位于bintray),替换为中科大源 #替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.ustc.edu.cn

2017-05-31 1894 0

安装java参考安装java8 安装hadoop从hadoop官网下载hadoop-2.8.0并解压,拷贝本机的hadoop配置文件/etc/hadoop/conf到当前路径下。 设置环境变量 export HADOOP_HOME=/home/zhangkai/data/tools/runtime/hadoop-2.8.0export HADOOP_CONF_DIR=$HADOOP_HOME/confexport YARN_HOME=$HADOOP_HOMEexport YARN_CONF_DIR=$HADOOP_CONF_DIRexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/nativeexport PATH=$HADOOP_HOME/bin:$PATH安装pig从pig官网下载pig-0.16.0并解压,设置环境变量 e

2018-10-17 3153 0

InstallationSetup spark 1.6 on hadoop 2.6.0Log collectionSpark ConceptsRDD:Resilient Distributed DatasetRDD的特点RDD的操作RDD的使用RDD的容错机制Stage划分理解闭包(closures)RDD数据同步RDD优化技巧RDD缓存转换并行化减少shuffle网络传输使用高性能的算子广播大变量使用Kryo优化序列化性能 Installationbrew install scalabrew install apache-spark SparkContext是Spark的上下文对象,是Spark程序的主入口点,负责连接到spark cluster。可用于创建RDD,在集群上创建累加器和广播变量。 每个jvm只能激活一个SparkContext对象,创建新的SparkContext对象时,

2017-04-15 2392 0

官方网站 installation pip3 install you-get 如果出现 urlopen error [SSL: CERTIFICATE_VERIFY_FAILED 错误,编辑you-get,加入下面两行: import sslssl._create_default_https_context = ssl._create_unverified_context 如果报LC_CTYPE错误,设置 LC_CTYPE=en_US.UTF-8 如果有其他错误,使用 you-get --debug -i 'https://www.youtube.com/watch?v=jNQXAC9IVRw' 打开debug查看错误。

2018-10-10 5569 0

部署环境安装mongodb安装jdk8安装elasticsearch常用命令修改字段解决未分配分片集群重启安装kibana安装x-packElasticsearch备份恢复工具安装mongo-connector安装supervisor部署环境假设我们有两台服务器,10.2.2.164和10.2.2.61。在10.2.2.61上部署mongodb主服务器和elasticsearch主服务器以及mongo-connector,在10.2.2.164上部署elasticsearch分片。 安装mongodb配置文件mongod.yml参考: systemLog: destination: file path: logs/mongod.log logAppend: true logRotate: rename timeStampFormat: iso8601-local# 存储引擎相关参

2018-07-28 2076 0

官方网站 installation pip3 install you-get 如果出现 urlopen error [SSL: CERTIFICATE_VERIFY_FAILED 错误,编辑you-get,加入下面两行: import sslssl._create_default_https_context = ssl._create_unverified_context 如果报LC_CTYPE错误,设置 LC_CTYPE=en_US.UTF-8 如果有其他错误,使用 you-get --debug -i 'https://www.youtube.com/watch?v=jNQXAC9IVRw' 打开debug查看错误。

2017-03-05 2215 0

使用katex解析Latex公式,首先引入相应资源 <link href="//cdn.bootcss.com/KaTeX/0.7.1/katex.min.css" rel="stylesheet"><script src="//cdn.bootcss.com/KaTeX/0.7.1/katex.min.js"></script><script src="//cdn.bootcss.com/KaTeX/0.7.1/contrib/auto-render.min.js"></script>需要注意以下几个地方: 行内公式,Latex使用$equation$来表示行内公式,不过在Katex中使用\(equation\)来表示。(在editor.md中使用$$) 因为Markdown中\是转义字符,所以在Markdown中输入行内公式使用\\(equation\\)。其他地方如 \{, \\

2018-08-08 1166 0

log对数损失函数(逻辑回归,也叫交叉熵损失)熵,交叉熵,相对熵平方损失函数(最小二乘法, Ordinary Least Squares )指数损失函数(Adaboost)Hinge损失函数(SVM)log对数损失函数(逻辑回归,也叫交叉熵损失)逻辑回归的推导中,它假设样本服从伯努利分布(0-1分布),然后求得满足该分布的似然函数,接着取对数求极值。而逻辑回归并没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为:最小化负的似然函数。从损失函数的视角来看,它就成了log损失函数了。 log损失函数标准形式: L(Y,P(Y∣X))=−logP(Y∣X) L ( Y, P ( Y | X ) ) = - log P ( Y | X ) L(Y,P(Y∣X))=−logP(Y∣X) 逻辑回归的 P(Y=y∣x)P( Y = y | x ) P(Y=y∣x) 表达式如下

2017-03-05 2444 0

mongo shell中的整数问题mongodb的shell相当于一个Javascript解释器,可以在其中执行Javascript命令。而在js里面,整数和小数都是number类型,并不区分。mongodb数据采用BSON(Binary JSON)文档型存储,BSON有两种整型数据类型:32位有符号整型(INT)和64位无符号整型(LONG)。如果手动在mongo的shell中插入或更新整数,这个整数会被替换为浮点数。对于已存在的记录,如果更新整数(比如id),这个整数会被替换为浮点数,但是对该记录的其他项更新不会影响已存在的整数项。 一个常用的场景是,使用一个自增的id。用一个集合ids来记录所有其他集合的自增id,在pymogo中用如下命令来获取一个id: db.ids.find_and_modify(query={'name': 'user'}, update={'$inc': {

2017-03-05 2024 0

如果我的关于这个话题的最新帖子没有提醒到你的话,那我明确地说,我是一个 Vim 的粉丝。所以在你们中的某些人向我扔石头之前,我先向你们展示一系列“鲜为人知的 Vim 命令”。我的意思是,一些你可能以前没有碰到过的命令,但可能对你来说很有用。作为第二免责声明,我不知道哪些命令是你可能知道的,以及哪些是对你来说有用的。因此这些命令实际上是一些相对少见,但很可能很有用的 Vim 命令。 保存文件并退出 :x和下面的命令是等价的: :wq都是保存当前文件并退出。 (译者注:这两个命令实际上并不完全等价,当文件被修改时两个命令时相同的。但如果未被修改,使用 :x 不会更改文件的修改时间,而使用 :wq 会改变文件的修改时间。) 基本计算器 在插入模式下,你可以使用 Ctrl+r 键然后输入 =,再输入一个简单的算式。按 Enter 键,计算结果就会插入到文件中。例如,尝试输入: Ctrl+r '=2

2018-07-29 258 0

使用pth文件扩展python环境python常用库子线程退出pycurl安装错误使用pth文件扩展python环境原理上Python运行环境查找库文件本质是对sys.path列表的遍历,所以要导入我们自己的库,可以使用这几种方法: 在文件中使用sys.path.append将库的路径添加进去调整PYTHONPATH环境变量将库文件放到sys.path的路径中(比如/usr/local/lib/python2.7/dist-packages) 这些方法都不够方便.最简单的方法是用.pth文件来实现.Python在遍历已知库文件目录的过程中,如果见到一个.pth文件就灰将文件中所记录的路径加到sys.path中,比如在/usr/local/lib/python2.7/dist-packages添加一个.pth文件,文件内容是我们的库路径就可以了. python常用库pip 使用 pip

2014-11-07 1900 0

JSONP 简介CSRF(Cross-site request forgery)跨站请求伪造XSS (Cross Site Scripting) 跨站脚本攻击JSONP 简介首先要理解下面几个概念: 一个众所周知的问题,Ajax直接请求普通文件存在跨域无权限访问的问题,甭管你是静态页面、动态网页、web服务、WCF,只要是跨域请求,一律不准。不过我们又发现,Web页面上调用js文件时则不受是否跨域的影响(不仅如此,我们还发现凡是拥有”src”这个属性的标签都拥有跨域的能力,比如<script>、<img>、<iframe>)。于是可以判断,当前阶段如果想通过纯web端(ActiveX控件、服务端代理、属于未来的HTML5之Websocket等方式不算)跨域访问数据就只有一种可能,那就是在远程服务器上设法把数据装进js格式的文件里,供客户端调用和进一步处理。恰巧我们已经知道有一种叫做JSO