logo

线性回归

wangzf / 2023-02-24


目录

回归分析

回归分析介绍

回归分析属于统计学的基本模型,回归分析(Regression Analysis)是用来确定两个或两个以上变量间关系的一种统计分析方法

在回归分析中,变量有两类:因变量和自变量。因变量通常是指实际问题中所关心的指标,用 Y 表示。 而自变量是影响因变量取值的一个变量,用 X 表示,如果有多个自变量则表示为 X1,X2,,Xp

回归分析步骤

  1. 确定因变量 Y 与自变量 X1,X2,,Xp 之间的定量关系表达式,即回归方程
  2. 对回归方程进行置信度进行检验
  3. 判断自变量 Xn(n=1,2,,m) 对因变量 Y 的影响
  4. 利用回归方程进行预测

模型选择

模型比较

考虑模型预测精度(模型尽可能地拟合数据)和模型简洁度(一个简单且能复制的模型)的调和

变量选择

模型泛化能力评价

简单线性回归

简单线性回归介绍

简单线性回归分析是处理两个变量之间关系的最简单模型,是两个变量之间的线性相关关系

如果回归分析中,只包括一个自变量 X 和一个因变量 Y 时,且它们的关系是线性的, 那么这种回归分析称为一元线性回归分析,也称为简单线性回归

建立回归模型

如果从散点图上发现数据点基本排列在一条直线附近,那么可以假设 XY 的关系是线性的。 下面建立以 X 为自变量,以 Y 为因变量的一元线性模型:可以用公式表式为:

Y=α+βX+ϵ

其中:

对于上面的公式, 称函数 f(X) 为一元线性回归函数:

f(X)=α+βX

如果 (Xi,Yi),i=1,2,,n(X,Y) 的一组观测值,则一元线性回归模型可表示为:

Yi=α+βX+ϵi,i=1,2,,n

其中

回归参数估计

简单线性回归模型的参数估计采用最小二乘法

估计出回归参数后,就可以根据回归参数估计得到 YX 的一条线性关系直线,称为拟合回归线

回归方程的显著性检验

拟合回归直线是用数据拟合出来的,是一个近似的值。可以看到有些点在线上, 有些点不在线上。要评价这条回归线拟合的好坏,我们就需要对回归模型进行显著性检验

从回归参数的公式可知,在计算过程中并不一定要知道 YX 是否有线性相关的关系。 如果不存相关关系,那么回归方程就没有任何意义了,如果 YX 是有相关关系的, 即 Y 会随着 X 的变化而线性变化,这个时候一元线性回归方程才有意义。 所以,我们需要用假设检验的方法,来验证相关性的有效性

通常会采用三种显著性检验的方法:

残差分析和异常点检测

在得到的回归模型进行显著性检验后,还要在做残差分析(因变量估计值和实际值之间的差), 检验模型的正确性,残差必须服从正态分布 ϵN(0,σ2)。 所以需要计算数据残差,并进行正态分布检验

  1. 计算残差
  2. 对残差进行 Shapiro-Wilk 正态分布检验,W 接近 1,p-value>0.05,证明数据集符合正态分布。 并生成评价拟合模型拟合情况的四幅诊断图

举例如下:

img

看到上面 4 幅图,每幅图上都有一些点被特别的标记出来了,这些点是可能存在的异常值点, 如果要对模型进行优化,我们可以从这些来入手。但终于本次残差分析的结果已经很好了, 所以对于异常点的优化,可能并不能明显的提升模型的效果

模型预测

通过上面的建模,获得了一元线性回归方程的公式,就可以对数据进行预测了

对给定 X=x0 时,计算出 y0=α+βx0 的值,并计算出置信度为 1α 的预测区间

X=x0Y=y0 时,置信度为 1α 的预测区间为 [y^0l,y^+l], 其中:

l=tα(n2)σ^1+1n+(xx0)2Sxx

即:

P(y^l<y0<y^+l)=α

计算预测值 y0,和相应的预测区间

多元线性回归

岭回归

LASSO

弹性网回归

偏最小二乘回归

判别性分析

LDA

QDA