Central Limit Theorem 中心极限定理
一句话定义
无论总体是什么分布,只要样本量足够大(通常 ),样本均值的抽样分布就近似服从正态分布,均值为总体均值 ,方差为 。
概念解析 Explanation
CLT 是统计推断的基石。它解决了一个核心问题:我们只有一个样本,如何对总体做推断?
直觉理解:想象你从一个总体中反复抽取大小为 的样本,每次计算样本均值。这些样本均值本身构成一个新的分布——抽样分布 (sampling distribution)。CLT 告诉我们:
- 这个抽样分布的形状近似正态(即使总体不是正态的!)
- 这个抽样分布的中心 = 总体均值
- 这个抽样分布的宽度 = (随 增大而缩小)
为什么如此重要?
- 因为正态分布的性质我们非常了解,可以轻松构建置信区间和进行假设检验
- 不需要知道总体的分布形式
- 提供了”样本均值是总体均值的好估计”的理论保证
规则:这是经验法则。如果总体本身接近正态,更小的 就够了;如果总体极度偏斜,可能需要更大的 。
核心公式 Formula
CLT 核心表述:
标准误 (Standard Error):
置信区间(基于 CLT):
关键性质: 每增大 4 倍,标准误减半。精度的提升是递减的。
图解 Visual
graph TD A["总体分布<br/>(可以是任何形状)<br/>均值 μ, 方差 σ²"] --> B["反复抽取大小为 n 的样本"] B --> C["样本1: X̄₁"] B --> D["样本2: X̄₂"] B --> E["样本3: X̄₃"] B --> F["..."] C --> G["抽样分布<br/>近似 N(μ, σ²/n)<br/>当 n ≥ 30"] D --> G E --> G F --> G
计算示例 Worked Example
问题:某只股票月度收益的总体标准差未知。从 30 个月的样本中得到均值 2%,样本标准差 20%。计算 95% 置信区间。
Step 1 标准误:
Step 2 临界值: (df=29)
Step 3 置信区间:
解读:我们 95% 确信总体月均收益率在 -5.46% 到 9.46% 之间。区间很宽,因为标准差较大且样本量不算大。
如果 n=200:,置信区间缩窄至 2% \pm 2.77% = [-0.77%, 4.77%]$。样本越大,估计越精确。
考试要点 Exam Focus
必考
- CLT 适用条件:(经验法则)
- 样本均值的抽样分布:
- 不要求总体为正态分布——这是 CLT 最强大之处
- 标准误 = 或 ——样本量越大,标准误越小
- CLT 是构建置信区间和假设检验的理论基础
- 连续复利收益的可加性 + CLT → 资产价格为对数正态分布
涉及科目 Appears In
- 数量方法 R7 (Estimation and Inference), R8 (Hypothesis Testing)
- 间接影响所有使用统计推断的科目