SVM 使用
SVM API 分类 SVC class sklearn.svm.SVC( *, C = 1.0, kernel = 'rbf', # linear, poly, rbf(默认), sigmoid, precomputed degree = 3, gamma = 'scale', …
SVM
SVM 模型概览 SVM 介绍 支持向量机是 90 年代中期发展起来的基于统计学习理论的一种有监督机器学习方法, 通过寻求结构化风险最小来提高学习器的泛化能力,实现经验风险和置信范围的最小化, 从而达到在统计样本量较少的情况下,也能获得良好的统计规律性 对于一个分类问题,给定样本集,的目的是在样本空间中找到一个划分超 …
集成学习概览
集成学习 所谓集成学习(ensemble learning),是指利用训练数据集构建多个分类器(弱分类器),并分别对测试数据集进行预测, 然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果. 通俗比喻就是"三个臭皮匠赛过诸葛亮”, 或一个公司董事会上的各董事投票决策,它要求每个弱分类器具备一定 …
Random Forest
随机森林介绍 模型介绍 随机森林是一种有监督学习算法,随机森林非常简单,易于实现,计算开销也很小, 但是它在分类和回归上表现出惊人的性能,因此,随机森林被誉为"代表集成学习技术水平的方法” 随机森林(Random Forest, RF)是一种以决策树为基学习器的集成(ensemble)学习器, …
AdaBoost
AdaBoost 简介 AdaBoost 是 Boosting 流派中最具代表性的一种模型。AdaBoost,是英文 “Adaptive Boosting”(自适应增强)的缩写, 由 Yoav Freund 和 Robert Schapire 在 1995 年提出 AdaBoost 的自适应在 …
CatBoost API
CatBoost 参数 Objectives and metrics Regression MAE MAPE Poisson Quantile RMSE LogLinQuantile Lq Huber Expectile FairLoss NumErrors SMAPE R2 MSLE …
CatBoost
CatBoost 简介 CatBoost,Categorical Boosting CatBoost 由俄罗斯公司 Yandex 设计,并于 2017 年在 Github 上开源。在 2017 年刚刚开源的时候, CatBoost 的效果并不理想,而且因为 CatBoost 在 CPU 上训练很慢,并不是很受大家的欢 …
GBDT API
GBDT 参数类型 决策树参数 min_samples_split 要分裂的树节点需要的最小样本数量, 若低于某个阈值, 则在此节点不分裂 用于控制过拟合, 过高会阻止模型学习, 并导致欠拟合 需要使用CV进行调参 min_samples_leaf 叶子节点中所需的最小样本数, 若低于某个阈值, 则此节点的父节点将不分 …
GBDT
GBDT 简介 GBDT 特点 集成学习 Boosting 一族将多个弱学习器(或称基学习器)提升为强学习器, 像 AdaBoost、GBDT 等都属于“加性模型”(Additive Model),即基学习器的线性组合 1997年 Freund 和 Schapire 提出的 AdaBoost 先从初始训练集训练出一个基 …
LightGBM 安装
LightGBM 的安装非常简单,在 Linux 下很方便的就可以开启 GPU 训练。可以优先选用从 pip 安装,如果失败再从源码安装。 pip 安装 pip install lightgbm pip install --no-binary :all: lightgbm # 从源码编译安装 pip install …
LightGBM baseline
import numpy as np import pandas as pd import lightgbm as lgb from sklearn.model_selection import KFold from sklearn.metrics import f1_score, roc_auc_score …
LightGBM API
LightGBM 核心数据结构 数据格式 数据保存在 lightgbm.Dataset 对象中 LibSVM(zero-based)、TSV、CSV、TXT 文本文件 可以包含标题 可以指定 label 列、权重列、query/group id 列 可以指定一个被忽略的列的列表 numpy 二维数组 pandas …
LightGBM
LightGBM 简介 LightGBM 特点 LightGBM is a gradient boosting framework that uses tree based learning algorithms. It is designed to be distributed and efficient with …
XGBoost 安装
Linux 下载源码 $ git clone --recursive https://github.com/dmlc/xgboost 编译 libxgboost.so $ cd xgboost $ make -j4 如果需要支持 GPU,则需要执行以下步骤 $ cd xgboost $ mkdir build $ cd …
XGBoost 使用
参数 通用参数 控制整个模型的通用性能 booster:基本学习器类型,默认 gbtree gbtree:基于树的模型 gblinear:线性模型。gblinear 使用带 l1,l2 正则化的线性回归模型作为基学习器。 因为 boost 算法是一个线性叠加的过程,而线性回归模型也是一个线性叠加的过程。 因此叠加的最终 …
XGBoost
XGBoost 简介 XGBoost,eXtreme Gradient Boosting XGBoost is an optimized distributed gradient boosting library designed to be highly efficient, flexible and …