Central Limit Theorem 中心极限定理

一句话定义

无论总体是什么分布,只要样本量足够大(通常 ),样本均值的抽样分布就近似服从正态分布,均值为总体均值 ,方差为

概念解析 Explanation

CLT 是统计推断的基石。它解决了一个核心问题:我们只有一个样本,如何对总体做推断?

直觉理解:想象你从一个总体中反复抽取大小为 的样本,每次计算样本均值。这些样本均值本身构成一个新的分布——抽样分布 (sampling distribution)。CLT 告诉我们:

  1. 这个抽样分布的形状近似正态(即使总体不是正态的!)
  2. 这个抽样分布的中心 = 总体均值
  3. 这个抽样分布的宽度 = (随 增大而缩小)

为什么如此重要?

  • 因为正态分布的性质我们非常了解,可以轻松构建置信区间和进行假设检验
  • 不需要知道总体的分布形式
  • 提供了”样本均值是总体均值的好估计”的理论保证

规则:这是经验法则。如果总体本身接近正态,更小的 就够了;如果总体极度偏斜,可能需要更大的

核心公式 Formula

CLT 核心表述

标准误 (Standard Error):

置信区间(基于 CLT):

关键性质 每增大 4 倍,标准误减半。精度的提升是递减的。

图解 Visual

graph TD
    A["总体分布<br/>(可以是任何形状)<br/>均值 μ, 方差 σ²"] --> B["反复抽取大小为 n 的样本"]
    B --> C["样本1: X̄₁"]
    B --> D["样本2: X̄₂"]
    B --> E["样本3: X̄₃"]
    B --> F["..."]
    C --> G["抽样分布<br/>近似 N(μ, σ²/n)<br/>当 n ≥ 30"]
    D --> G
    E --> G
    F --> G

计算示例 Worked Example

问题:某只股票月度收益的总体标准差未知。从 30 个月的样本中得到均值 2%,样本标准差 20%。计算 95% 置信区间。

Step 1 标准误:

Step 2 临界值: (df=29)

Step 3 置信区间:

解读:我们 95% 确信总体月均收益率在 -5.46% 到 9.46% 之间。区间很宽,因为标准差较大且样本量不算大。

如果 n=200,置信区间缩窄至 2% \pm 2.77% = [-0.77%, 4.77%]$。样本越大,估计越精确。

考试要点 Exam Focus

必考

  • CLT 适用条件:(经验法则)
  • 样本均值的抽样分布:
  • 不要求总体为正态分布——这是 CLT 最强大之处
  • 标准误 = ——样本量越大,标准误越小
  • CLT 是构建置信区间和假设检验的理论基础
  • 连续复利收益的可加性 + CLT → 资产价格为对数正态分布

涉及科目 Appears In

  • 数量方法 R7 (Estimation and Inference), R8 (Hypothesis Testing)
  • 间接影响所有使用统计推断的科目
  • 假设检验 — CLT 使假设检验成为可能
  • 标准差 — 标准误的计算基础
  • TVM — 连续复利收益的正态性(经由 CLT)→ 对数正态资产价格