统计学知识

概述

整理一下统计学中常用的概念、方法论. 作为一个统计学出身的人, 遇到这些问题时希望不要被难倒

内容大致包含：

大数定律、中心极限定理
贝叶斯公式、贝叶斯定理
参数估计
- 点估计、区间估计
最大似然估计与EM算法
假设检验
- A/B test
方差分析
回归分析
主成分分析
因子分析
聚类分析
统计显著性

大数定律与中心极限定理

在统计学中, 大数定律又称大数法则、大数率, 是描述相当多次数重复实验的结果的定律; 根据这个定律, 样本数量越多, 则其算术平均值就有越高的概率接近期望值.

大数定律

若 $\xi_1, \xi_2,...,\xi_n,...$ 是随机变量序列, 令

$$\eta_{n} = \frac{\xi_1+\xi_2+...+\xi_n}{n}$$

若存在常数序列 $a_1,a_2,...,a_n,...$ 对任何的正数 $\epsilon$ , 恒有

$$\lim\limits_{n \to \infty}P(|\eta_n-a_n|<\epsilon)=1$$

则称序列 ${\epsilon_n}$ 服从 大数定律(或大数法则).

切比雪夫(Chebyishev)不等式

切比雪夫定理的特殊情况

伯努利大数定理

辛钦大数定理

中心极限定理

对于独立随机变量序列 $\xi_1, \xi_2,...,\xi_n,...$ , 假定 $E(\xi_n)$ 和 $D(\xi_n)$ 都存在, 令

$$\zeta_n=\frac{\sum_{i=1}^{n}\xi_i-\sum_{i=1}^{n}E(\xi_i)}{\sqrt{\sum_{i=1}^{n}}}$$

若

$$\lim\limits_{n \to \infty}P(\zeta_n < x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt$$

则称序列 ${\xi_n}$ 服从 中心极限定理(Central Limit Theorem).

同分布的中心极限定理

德莫佛－拉普拉斯定理

统计推断理论

抽样分布
参数估计
- 点估计
- 区间估计
假设检验
- 参数假设检验问题
- 非参数假设检验问题

抽样分布

参数估计

点估计

区间估计

偏度、峰度

偏度

偏度(skewness)又称偏态、偏态系数, 是描述数据分布偏斜方向和程度的度量, 其是衡量数据分布非对称程度的数字特征. 对于随机变量 $X$ , 其偏度是样本的三阶标准化矩:

$$Skew(x) = E[(\frac{(X-\mu)^{3}}{\sigma})] = \frac{E(X^{3})-3\mu \sigma^{2} - \mu^{3}}{\sigma^{3}}$$

偏度的衡量是相对于正态分布来说, 正态分布的偏度为0. 因此说:
- 若数据分布是对称的, 偏度为0
- 若偏度 > 0, 则可认为分布为右偏, 也叫正偏, 即分布有一条长尾在右
- 若偏度 < 0, 则可认为分布为左偏, 也叫负偏, 即分布有一条长尾在左

峰度

峰度(Kurtosis)是描述数据分布陡峭或平滑的统计量, 通过对峰度的计算, 能够判定数据分布相对于正态分布而言是更陡峭还是平缓. 对于随机变量 $X$ , 其峰度为样本的四阶标准中心矩

$$Kurt(x) = E[(\frac{(X-\mu)^{4}}{\sigma})] = \frac{E[(X-\mu)^4]}{(E[[(X-\mu)^2]])^2}$$

当峰度系数 > 0, 从形态上看, 它相比于正态分布要更陡峭或尾部更厚
峰度系数 < 0, 从形态上看, 则它相比于正态分布更平缓或尾部更薄
在实际环境当中, 如果一个分部是厚尾的, 这个分布往往比正态分布的尾部具有更大的"质量", 即含又更多的极端值
常用的几个分布中, 正态分布的峰度为 0, 均匀分布的峰度为 -1.2, 指数分布的峰度为 6

概述