统计学知识
wangzf / 2022-05-07
目录
概述
整理一下统计学中常用的概念、方法论. 作为一个统计学出身的人, 遇到这些问题时希望不要被难倒
内容大致包含:
- 大数定律、中心极限定理
- 贝叶斯公式、贝叶斯定理
- 参数估计
- 点估计、区间估计
- 最大似然估计与EM算法
- 假设检验
- A/B test
- 方差分析
- 回归分析
- 主成分分析
- 因子分析
- 聚类分析
- 统计显著性
大数定律与中心极限定理
在统计学中, 大数定律又称大数法则、大数率, 是描述相当多次数重复实验的结果的定律; 根据这个定律, 样本数量越多, 则其算术平均值就有越高的概率接近期望值.
大数定律
若 是随机变量序列, 令
若存在常数序列 对任何的正数 , 恒有
则称序列 服从 大数定律(或大数法则).
切比雪夫(Chebyishev)不等式
切比雪夫定理的特殊情况
伯努利大数定理
辛钦大数定理
中心极限定理
对于独立随机变量序列 , 假定 和 都存在, 令
若
则称序列 服从 中心极限定理(Central Limit Theorem).
同分布的中心极限定理
德莫佛-拉普拉斯定理
统计推断理论
- 抽样分布
- 参数估计
- 点估计
- 区间估计
- 假设检验
- 参数假设检验问题
- 非参数假设检验问题
抽样分布
参数估计
点估计
区间估计
偏度、峰度
偏度
- 偏度(skewness)又称偏态、偏态系数, 是描述数据分布偏斜方向和程度的度量, 其是衡量数据分布非对称程度的数字特征. 对于随机变量 , 其偏度是样本的三阶标准化矩:
- 偏度的衡量是相对于正态分布来说, 正态分布的偏度为0. 因此说:
- 若数据分布是对称的, 偏度为0
- 若偏度 > 0, 则可认为分布为右偏, 也叫正偏, 即分布有一条长尾在右
- 若偏度 < 0, 则可认为分布为左偏, 也叫负偏, 即分布有一条长尾在左
峰度
峰度(Kurtosis)是描述数据分布陡峭或平滑的统计量, 通过对峰度的计算, 能够判定数据分布相对于正态分布而言是更陡峭还是平缓. 对于随机变量 , 其峰度为样本的四阶标准中心矩
- 当峰度系数 > 0, 从形态上看, 它相比于正态分布要更陡峭或尾部更厚
- 峰度系数 < 0, 从形态上看, 则它相比于正态分布更平缓或尾部更薄
- 在实际环境当中, 如果一个分部是厚尾的, 这个分布往往比正态分布的尾部具有更大的"质量", 即含又更多的极端值
- 常用的几个分布中, 正态分布的峰度为 0, 均匀分布的峰度为 -1.2, 指数分布的峰度为 6