二分类评价指标
混淆矩阵 混淆矩阵: 混淆矩阵及其相关指标: 错误率 Error Rate:错误率 错误率是分类错误的样本数占样本总数的比例 定义: $$E(f; D)=\frac{1}{N}\sum_{i=1}^{N}I(f(x_{i}) \neq y_{i})$$ $$ErrorRate(\hat{y}_{i}, …
聚类评价指标
评价指标简介 聚类性能度量亦称聚类"有效性指标"(validity index) 设置聚类性能度量的目的: 对聚类结果,通过某种性能度量来评估其好坏。若明确了最终将要使用的性能度量, 则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果 什么样的聚类结果比较好: 簇内相似 …
模型评价指标
在机器学习或者深度学习领域,我们在为待解决的问题生成预测模型后, 需要对这个模型对未知数据的泛化性能进行评估, 性能度量方法就是评估模型泛化能力的评价标准 评价指标常见问题 在机器学习的背景下解释精度和召回率之间的区别 在机器学习模型中,精度和召回率是两个常用的评估指标。 精度是衡量模型在所有正预测中做出的真正正预测的 …
多分类评价指标
Categorization Accuracy Categorization Accuracy,分类准确率 定义: $$logloss = -\frac{1}{N}\sum_{i=1}^{N}I(y_{i} = p_{i})$$ 其中: $N$ 为测试样本的个数 $y_{i}$ 为第 $i$ …
回归和时序评价指标
普通回归 时间序列预测 最常见的时间序列预测损失函数是 MSE、MAE 等点误差函数,这类函数关注每个点的拟合是否准确。 然而,这种损失函数完全忽略了不同点的关系,在时间序列中忽略了各个点的时序关系, 导致了预测结果的形状和真实序列不匹配的问题 针对 MSE 等损失函数的问题,业内提出一种针对时间序列预测问题的 DTW …
特征采样-回归任务
参考 Delving into Deep Imbalanced Regression
特征工程概览
文章 全网写特征工程最通透的 使用sklearn做单机特征工程 数据建模就是从数据中学习到洞见(insights)的过程,这个过程其实是很曲折的,要经过数据的表达、模型的学习两部。其中:数据的表达就是原始数据经过 clean 和 transformer 得到 feaaures 的过程,即为特征工程 特征工程 在机器学习 …
缺失值处理
缺失值处理理论 当缺失数据比例很小时,可直接对缺失记录进行舍弃或进行手工处理 实际数据中,缺失数据往往占有相当的比重,这时如果手工处理,非常低效; 如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与观测数据间产生系统差异, 对这样的数据进行分析,可能会得出错误的结论 缺失的类型: 在对缺失数据进行处理前, 了解数据 …
特征采样-分类任务
不平衡数据集的问题描述 样本类别样本不平衡(class-imbalance)数据集是指一个类中的示例数量与另一类中的示例数量显著不同的情况。 例如在一个二元分类问题中,一个类只占总样本的一小部分,这被称为不平衡数据集。 类不平衡会在构建机器学习模型时导致很多问题。一般地,常情况下样本类别比例(imbalance …
特征构建
交互特征 两个特征的乘积可以组成一个简单的交互特征,这样可以捕获特征之间的交互作用。 交互特征的构造非常简单,但是使用起来代价很高 df = pd.DataFrame( {}, columns = ["x1", "x2", "x3", "x4", …
异常值检测及处理
Anomaly Detection
Text
TODO NLP问题15种数据增强方法汇总! 使用 Scikit-Learn 提取文本特征 文本特征 文本特征和类别特征会有一些简单的交集,一些简单的文本特征可以直接当做类别特征处理,例如: 花的颜色:red,blue,yellow 等等 名字:Mr jack,Mr smith,Mrs will,Mr phil 等等 …
Numeric
通过特征提取,能得到未经处理的特征,这时的特征可能有以下问题: 特征尺度 异常值 不属于同一量纲 即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题 常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布, 标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息, 将特征的取值区间缩 …
Image
TODO AugMix:我比MixUp要强! 图像数据不足时的处理方法 一个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息; 二是在模型的形成的过程中(包括构造、学习、推理等),人们提供的先验信息 当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下想要保证模型的效果, …
Categorical
类别特征编码介绍 类别型特征原始输入通常是字符串形式, 除了基于决策树模型的少数模型能够直接处理字符串形式的输入, 其他模型需要将类别型特征转换为数值型特征 在很多表格类的问题中,高基数的特征类别处理一直是一个困扰着很多人的问题,究竟哪一种操作是最好的, 很难说,不同的数据集有不同的特性,可能某一种数据转化操作这 A …
Audio
音频数据了解 音频文件格式介绍 音频文件格式专指存放音频数据的文件的格式, 存在多种不同的格式 一般获取音频数据的方法是: 采用固定的时间间隔, 对音频电压采样(量化), 并将结果以某种分辨率(例如: CDDA 每个采样为 16 比特或 2 字节)存储 采样的时间间隔可以有不同的标准, 如: CDDA …