模型工具 - Model Utils

概览

2023-03-19

二分类评价指标

混淆矩阵混淆矩阵：混淆矩阵及其相关指标：错误率 Error Rate：错误率错误率是分类错误的样本数占样本总数的比例定义： $$E(f; D)=\frac{1}{N}\sum_{i=1}^{N}I(f(x_{i}) \neq y_{i})$$ $$ErrorRate(\hat{y}_{i}, …

Machine learning 阅读

2022-11-22

聚类评价指标

评价指标简介聚类性能度量亦称聚类"有效性指标"(validity index) 设置聚类性能度量的目的：对聚类结果，通过某种性能度量来评估其好坏。若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果什么样的聚类结果比较好：簇内相似 …

Machine learning 阅读

2022-11-22

模型评价指标

在机器学习或者深度学习领域，我们在为待解决的问题生成预测模型后，需要对这个模型对未知数据的泛化性能进行评估，性能度量方法就是评估模型泛化能力的评价标准评价指标常见问题在机器学习的背景下解释精度和召回率之间的区别在机器学习模型中，精度和召回率是两个常用的评估指标。精度是衡量模型在所有正预测中做出的真正正预测的 …

Machine learning 阅读

2022-11-22

多分类评价指标

Categorization Accuracy Categorization Accuracy，分类准确率定义： $$logloss = -\frac{1}{N}\sum_{i=1}^{N}I(y_{i} = p_{i})$$ 其中： $N$ 为测试样本的个数 $y_{i}$ 为第 $i$ …

Machine learning 阅读

2022-11-22

回归和时序评价指标

普通回归时间序列预测最常见的时间序列预测损失函数是 MSE、MAE 等点误差函数，这类函数关注每个点的拟合是否准确。然而，这种损失函数完全忽略了不同点的关系，在时间序列中忽略了各个点的时序关系，导致了预测结果的形状和真实序列不匹配的问题针对 MSE 等损失函数的问题，业内提出一种针对时间序列预测问题的 DTW …

Machine learning 阅读

概览

2023-03-16

特征采样-回归任务

参考 Delving into Deep Imbalanced Regression

Feature engine 阅读

2023-02-27

特征工程概览

文章全网写特征工程最通透的使用sklearn做单机特征工程数据建模就是从数据中学习到洞见(insights)的过程，这个过程其实是很曲折的，要经过数据的表达、模型的学习两部。其中：数据的表达就是原始数据经过 clean 和 transformer 得到 feaaures 的过程，即为特征工程特征工程在机器学习 …

Feature engine 阅读

2022-09-13

缺失值处理

缺失值处理理论当缺失数据比例很小时，可直接对缺失记录进行舍弃或进行手工处理实际数据中，缺失数据往往占有相当的比重，这时如果手工处理，非常低效；如果舍弃缺失记录，则会丢失大量信息，使不完全观测数据与观测数据间产生系统差异，对这样的数据进行分析，可能会得出错误的结论缺失的类型：在对缺失数据进行处理前, 了解数据 …

Feature engine 阅读

2022-09-13

特征采样-分类任务

不平衡数据集的问题描述样本类别样本不平衡(class-imbalance)数据集是指一个类中的示例数量与另一类中的示例数量显著不同的情况。例如在一个二元分类问题中，一个类只占总样本的一小部分，这被称为不平衡数据集。类不平衡会在构建机器学习模型时导致很多问题。一般地，常情况下样本类别比例(imbalance …

Feature engine 阅读

2022-09-13

特征构建

交互特征两个特征的乘积可以组成一个简单的交互特征，这样可以捕获特征之间的交互作用。交互特征的构造非常简单，但是使用起来代价很高 df = pd.DataFrame( {}, columns = ["x1", "x2", "x3", "x4", …

Feature engine 阅读

2022-09-13

异常值检测及处理

Anomaly Detection

Feature engine 阅读

2022-09-13

Text

TODO NLP问题15种数据增强方法汇总！使用 Scikit-Learn 提取文本特征文本特征文本特征和类别特征会有一些简单的交集，一些简单的文本特征可以直接当做类别特征处理，例如：花的颜色：red，blue，yellow 等等名字：Mr jack，Mr smith，Mrs will，Mr phil 等等 …

Feature engine 阅读

2022-09-13

Numeric

通过特征提取，能得到未经处理的特征，这时的特征可能有以下问题：特征尺度异常值不属于同一量纲即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。区间缩放法利用了边界值信息，将特征的取值区间缩 …

Feature engine 阅读

2022-09-13

Image

TODO AugMix：我比MixUp要强！图像数据不足时的处理方法一个模型所能提供的信息一般来源于两个方面，一是训练数据中蕴含的信息；二是在模型的形成的过程中(包括构造、学习、推理等)，人们提供的先验信息当训练数据不足时，说明模型从原始数据中获取的信息比较少，这种情况下想要保证模型的效果， …

Feature engine 阅读

2022-09-13

Categorical

类别特征编码介绍类别型特征原始输入通常是字符串形式, 除了基于决策树模型的少数模型能够直接处理字符串形式的输入, 其他模型需要将类别型特征转换为数值型特征在很多表格类的问题中，高基数的特征类别处理一直是一个困扰着很多人的问题，究竟哪一种操作是最好的，很难说，不同的数据集有不同的特性，可能某一种数据转化操作这 A …

Feature engine 阅读

2022-09-13

Audio

音频数据了解音频文件格式介绍音频文件格式专指存放音频数据的文件的格式, 存在多种不同的格式一般获取音频数据的方法是: 采用固定的时间间隔, 对音频电压采样(量化), 并将结果以某种分辨率(例如: CDDA 每个采样为 16 比特或 2 字节)存储采样的时间间隔可以有不同的标准, 如: CDDA …

Feature engine 阅读