统计学知识

wangzf / 2022-05-07

概述
大数定律与中心极限定理
- 大数定律
- 中心极限定理
  - 同分布的中心极限定理
  - 德莫佛－拉普拉斯定理
统计推断理论
抽样分布
参数估计
- 点估计
- 区间估计
偏度、峰度
- 偏度
- 峰度
回归分析
- 回归分析简介
- 回归分析理论
参考

概述

整理一下统计学中常用的概念、方法论. 作为一个统计学出身的人, 遇到这些问题时希望不要被难倒

内容大致包含：

大数定律、中心极限定理
贝叶斯公式、贝叶斯定理
参数估计
- 点估计、区间估计
最大似然估计与EM算法
假设检验
- A/B test
方差分析
回归分析
主成分分析
因子分析
聚类分析
统计显著性

大数定律与中心极限定理

在统计学中, 大数定律又称大数法则、大数率, 是描述相当多次数重复实验的结果的定律; 根据这个定律, 样本数量越多, 则其算术平均值就有越高的概率接近期望值.

大数定律

若 $ξ_{1}, ξ_{2}, . . ., ξ_{n}, . . .$ 是随机变量序列, 令

$η_{n} = \frac{ξ_{1} + ξ_{2} + . . . + ξ_{n}}{n}$

若存在常数序列 $a_{1}, a_{2}, . . ., a_{n}, . . .$ 对任何的正数 $ϵ$ , 恒有

$lim_{n \to \infty} P (| η_{n} - a_{n} | < ϵ) = 1$

则称序列 $ϵ_{n}$ 服从 大数定律(或大数法则).

切比雪夫(Chebyishev)不等式

切比雪夫定理的特殊情况

伯努利大数定理

辛钦大数定理

中心极限定理

对于独立随机变量序列 $ξ_{1}, ξ_{2}, . . ., ξ_{n}, . . .$ , 假定 $E (ξ_{n})$ 和 $D (ξ_{n})$ 都存在, 令

$ζ_{n} = \frac{\sum_{i = 1}^{n} ξ_{i} - \sum_{i = 1}^{n} E (ξ_{i})}{\sqrt{\sum_{i = 1}^{n}}}$

若

$lim_{n \to \infty} P (ζ_{n} < x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{x} e^{\frac{- t^{2}}{2}} d t$

则称序列 $ξ_{n}$ 服从 中心极限定理(Central Limit Theorem).

同分布的中心极限定理

德莫佛－拉普拉斯定理

统计推断理论

抽样分布
参数估计
- 点估计
- 区间估计
假设检验
- 参数假设检验问题
- 非参数假设检验问题

抽样分布

参数估计

点估计

区间估计

偏度、峰度

偏度

偏度(skewness)又称偏态、偏态系数, 是描述数据分布偏斜方向和程度的度量, 其是衡量数据分布非对称程度的数字特征. 对于随机变量 $X$ , 其偏度是样本的三阶标准化矩:

$S k e w (x) = E [(\frac{(X - μ)^{3}}{σ})] = \frac{E (X^{3}) - 3 μ σ^{2} - μ^{3}}{σ^{3}}$

偏度的衡量是相对于正态分布来说, 正态分布的偏度为0. 因此说:
- 若数据分布是对称的, 偏度为0
- 若偏度 > 0, 则可认为分布为右偏, 也叫正偏, 即分布有一条长尾在右
- 若偏度 < 0, 则可认为分布为左偏, 也叫负偏, 即分布有一条长尾在左

峰度

峰度(Kurtosis)是描述数据分布陡峭或平滑的统计量, 通过对峰度的计算, 能够判定数据分布相对于正态分布而言是更陡峭还是平缓. 对于随机变量 $X$ , 其峰度为样本的四阶标准中心矩

$K u r t (x) = E [(\frac{(X - μ)^{4}}{σ})] = \frac{E [(X - μ)^{4}]}{(E [[(X - μ)^{2}]])^{2}}$

当峰度系数 > 0, 从形态上看, 它相比于正态分布要更陡峭或尾部更厚
峰度系数 < 0, 从形态上看, 则它相比于正态分布更平缓或尾部更薄
在实际环境当中, 如果一个分部是厚尾的, 这个分布往往比正态分布的尾部具有更大的"质量", 即含又更多的极端值
常用的几个分布中, 正态分布的峰度为 0, 均匀分布的峰度为 -1.2, 指数分布的峰度为 6

概述