Test Statistics 检验统计量

一句话定义

检验统计量 (test statistic) 是将样本信息浓缩为一个数值,用于衡量样本数据与零假设之间的偏离程度,并据此做出拒绝或不拒绝 的决策。

通用框架 Universal Framework

所有参数检验统计量都遵循同一个模板:

直觉:分子衡量”样本与假设有多远”,分母用标准误做标准化。比值越大,样本与 越不一致,越应该拒绝


一、z-test(z 检验)

适用条件

  • 总体方差 已知
  • 或者样本量很大(),即使 未知,t 分布已近似正态,可以近似使用 z

计算公式

其中:

  • = 样本均值(sample mean)
  • = 假设的总体均值(hypothesized population mean)
  • = 已知的总体标准差(known population standard deviation)
  • = 样本量(sample size)

分布特征

  • 标准正态分布
  • 对称、钟形、无自由度参数
  • 尾部比 t 分布薄(更集中于中心)

常用临界值

显著性水平 单尾双尾
10%1.281.65
5%1.651.96
1%2.332.58

记忆口诀

1.65 / 1.96 / 2.58 是 CFA 考试中最常用的三个临界值,分别对应 单尾5%、双尾5%、双尾1%。

计算示例

问题:总体标准差已知为 。抽样 100 个观测值,样本均值 。检验 vs )。

双尾 5% 临界值 = 1.96。,拒绝


二、t-test(t 检验)

适用条件

  • 总体方差 未知,用样本标准差 估计
  • 总体近似正态分布(或 时由 CLT 保证)

实务中的核心检验

因为 在实际中几乎永远未知,所以 t-test 是最常用的检验。CFA 考试中,除非题目明确说 已知,否则一律用 t-test。

分布特征

  • t 分布的形状由自由度 df 决定
  • 比正态分布更”矮胖”:峰度更低、尾部更厚
  • 时,t 分布收敛为标准正态分布
  • 时,t 分布已与 z 分布非常接近

2.1 单总体均值检验 (One-sample t-test)

其中:

  • = 样本标准差(sample standard deviation)
  • = 自由度(degrees of freedom)

场景:检验某资产的平均收益是否等于某个基准值。

示例:36 个月的基金月均超额收益 。检验 ,双尾)。

,不拒绝 。超额收益不显著。

2.2 两独立样本均值差检验 (Two-sample t-test, independent)

其中:

  • = 下的均值差假设值(通常为 0)
  • = 合并标准差(pooled standard deviation)

前提假设

使用合并标准差 的前提是两总体方差相等(equal variances assumed)。如果方差不等,需使用 Welch’s t-test(CFA L1 一般假设方差相等)。

场景:比较两个投资策略/两组资产的平均收益是否有显著差异。

2.3 配对样本 t 检验 (Paired t-test)

其中:

  • = 配对差值的样本均值(mean of paired differences)
  • = 下的差值假设均值(通常为 0)
  • = 配对差值的样本标准差(standard deviation of paired differences)
  • = 配对的组数(number of pairs)

场景:同一只基金改策略前后的表现比较;同一组股票在不同市场环境下的收益比较。

示例:10 只基金改策略前后的平均收益差 。检验策略变更是否有效(,双尾)。

,不拒绝 。策略变更的效果不显著。

2.4 相关系数显著性检验 (Correlation significance t-test)

其中:

  • = 样本 相关系数(sample correlation coefficient)

场景:检验两个变量之间的相关性是否统计上显著不为零。


三、Chi-square test( 卡方检验)

3.1 单总体方差检验

适用条件

  • 检验总体方差是否等于某个假设值
  • 总体需为正态分布(对正态性假设更敏感!)

计算公式

其中:

  • = 样本方差(sample variance)
  • = 假设的总体方差(hypothesized population variance)

分布特征

  • 非对称分布,始终 (因为是方差之比,不可能为负)
  • 右偏(right-skewed),随 df 增大逐渐趋向对称
  • 双尾检验需要查两个临界值(上下各一个),不能简单用

考试陷阱

Chi-square 双尾检验时,上下两个临界值不是对称的!必须分别查

计算示例

问题:某基金宣称月度收益标准差 。24 个月样本数据 。检验 ,双尾)。

,临界值:

,不拒绝

3.2 列联表独立性检验 (Chi-Square Test of Independence)

适用条件

  • 检验两个分类变量(categorical variables)是否独立

计算公式

其中:

  • = 观测频数(observed frequency)
  • = 期望频数(expected frequency)
  • = 行数(number of rows), = 列数(number of columns)

注意

独立性检验的 Chi-square 只看右尾 值越大,说明观测与”独立假设”偏离越大。


四、F-test(F 检验)

适用条件

  • 比较两个总体的方差是否相等
  • 两总体均需为正态分布

计算公式

关键规则:大方差放分子,使 ,只查右尾临界值。

其中:

  • = 较大的样本方差(larger sample variance → 分子)
  • = 较小的样本方差(smaller sample variance → 分母)
  • = 分子自由度, = 分母自由度

分布特征

  • 值始终
  • 右偏分布
  • 两个自由度参数决定形状:
  • 表示两个方差完全相等

考试要点

F-test 是右尾检验:即使原假设是双尾的(),也通过”大方差放分子”转化为只看右尾。这意味着如果原题是双尾 5%,你应查 的右尾临界值。

计算示例

问题:两个基金收益方差分别为 )和 )。 检验两基金风险是否相等。

,不拒绝 。两基金方差无显著差异。


五、回归中的检验统计量

斜率系数 t 检验

检验回归斜率是否显著不为零()。

回归整体 F 检验 (ANOVA F-test)

其中:

  • = 回归均方(mean square regression)
  • = 残差均方(mean square error)
  • = 自变量个数(简单回归中

检验整个回归模型是否有解释力( 所有斜率系数 = 0)。

简单回归中的关系

在简单线性回归中,斜率 t 检验和 ANOVA F 检验完全等价


六、非参数检验 Non-parametric Tests

何时使用非参数检验?

  1. 数据不满足正态性假设(极度偏斜、存在极端异常值)
  2. 数据是排序/等级数据(ordinal data),不是连续数据
  3. 样本量太小,无法依赖 CLT
  4. 关注中位数而非均值

常见非参数方法

方法目的对应的参数检验
Spearman 秩相关检验两变量的单调关系(不限于线性)Pearson 相关系数 t 检验
Runs test检验数据序列是否随机无直接对应
Mann-Whitney U比较两独立样本的中位数独立样本 t-test
Wilcoxon signed-rank比较配对样本的中位数差异配对 t-test
Kruskal-Wallis比较多组的中位数One-way ANOVA

Spearman 秩相关

其中 = 第 个观测的两组排名之差。

显著性检验( 时):

Pearson vs Spearman

  • Pearson:衡量线性关系,要求正态分布
  • Spearman:衡量单调关系(包括非线性单调),不要求正态分布
  • 如果 (秩相关比线性相关更强),提示可能存在非线性单调关系

参数 vs 非参数检验对比

参数检验 Parametric非参数检验 Non-parametric
分布假设需要(通常正态)不需要或很少
数据类型连续数据排序/等级数据也可
Power假设成立时更强通常较弱(需更大样本量)
适用场景数据近似正态、样本足够大分布未知、偏斜严重、存在异常值

快速决策树 Quick Decision Tree

flowchart TD
    START["要检验什么?"] --> Q1{"检验<b>均值</b>?"}
    START --> Q2{"检验<b>方差</b>?"}
    START --> Q3{"检验<b>独立性</b>?"}
    START --> Q4{"检验<b>相关性</b>?"}

    Q1 -->|"单总体"| A1{"σ 已知?"}
    A1 -->|"是"| Z1["<b>z-test</b><br/>z = (X̄-μ₀)/(σ/√n)"]
    A1 -->|"否"| T1["<b>t-test</b><br/>df = n-1"]
    
    Q1 -->|"两独立样本"| A2{"方差是否相等?"}
    A2 -->|"相等"| T2["<b>Pooled t-test</b><br/>df = n₁+n₂-2"]
    A2 -->|"不等"| T2W["<b>Welch's t-test</b>"]
    
    Q1 -->|"配对样本"| T3["<b>Paired t-test</b><br/>df = n-1"]

    Q2 -->|"单总体"| CHI["<b>χ² test</b><br/>df = n-1"]
    Q2 -->|"两总体"| F1["<b>F-test</b><br/>大方差放分子<br/>df = (n₁-1, n₂-1)"]

    Q3 -->|"分类变量"| CHI2["<b>χ² 独立性检验</b><br/>df = (r-1)(c-1)"]

    Q4 -->|"正态数据"| PEAR["<b>Pearson t-test</b><br/>df = n-2"]
    Q4 -->|"非正态/排序数据"| SPEAR["<b>Spearman 秩相关</b>"]

    style Z1 fill:#e8f5e9
    style T1 fill:#e3f2fd
    style T2 fill:#e3f2fd
    style T2W fill:#e3f2fd
    style T3 fill:#e3f2fd
    style CHI fill:#fff3e0
    style F1 fill:#fce4ec
    style CHI2 fill:#fff3e0
    style PEAR fill:#e3f2fd
    style SPEAR fill:#f3e5f5

极简速查表

你要检验…方差/分布情况用什么检验自由度
单总体均值 已知z-test
单总体均值 未知t-test
两独立样本均值差方差相等Pooled t-test
配对样本均值差Paired t-test
单总体方差正态总体 test
两总体方差比正态总体F-test
两分类变量独立性 独立性检验
相关系数 ≠ 0正态t-test
单调关系非正态/排序Spearman

易混淆点 Common Confusions

必读:考试中最容易出错的地方

1. z-test vs t-test 选择

  • 唯一区别 是否已知。已知 → z,未知 → t
  • 实务中 几乎永远未知,所以几乎都用 t-test
  • 大样本近似:当 时,t 分布近似 z 分布,两者结果几乎相同
  • 考试默认:除非题目明确说”总体标准差已知”,否则用 t-test

2. 独立样本 vs 配对样本

  • 独立样本:两组完全不同的观测对象(如两个不同基金)→ Pooled t-test
  • 配对样本:同一组观测对象在两个条件下的比较(如同一基金策略变更前后)→ Paired t-test
  • 关键判断:观测值之间是否有”天然配对”关系

3. Chi-square 的两种用途混淆

  • 方差检验,df =
  • 独立性检验,df =
  • 两者公式完全不同!不要混用

4. F-test 陷阱

  • 大方差一定放分子,不是”第一组放分子”
  • 即使是双尾假设(),也只看右尾
  • 双尾检验时: 应查 (不是 )的右尾值

5. Chi-square 双尾检验

  • Chi-square 分布不对称,不能像 t/z 一样用 同一个值
  • 双尾检验需要查两个不同的临界值:
  • 落在两个临界值之间 → 不拒绝

6. 自由度记忆

  • 单均值 t / 配对 t / Chi-square(方差):df = n - 1
  • 两独立样本 t:df = n₁ + n₂ - 2
  • 相关系数 t / 回归斜率 t:df = n - 2
  • F-test:df = (n₁-1, n₂-1),两个自由度
  • 独立性 Chi-square:df = (r-1)(c-1)

7. “不拒绝” ≠ “接受”

  • “Fail to reject ” ≠ “Accept
  • 不拒绝只是说证据不足,不是说 为真

8. 统计显著 ≠ 经济意义

  • 统计上显著(statistically significant)只是说偏差不太可能由随机误差造成
  • 不代表这个偏差在经济/投资决策中有实际意义
  • 大样本时,极小的差异也可能统计显著

考试要点 Exam Focus

必考

  • 通用公式:
  • z 临界值必须背:1.65(单尾5%)、1.96(双尾5%)、2.58(双尾1%)
  • t-test 是默认选择(因为 几乎永远未知)
  • F-test 大方差放分子,只看右尾
  • Chi-square 双尾需查两个不对称的临界值
  • 非参数检验适用于:不满足正态性假设、排序数据、样本太小
  • Power = ,增大样本量可以提高 Power

涉及科目 Appears In

  • 数量方法 R8 (Hypothesis Testing), R9 (Tests of Independence), R10 (Regression significance tests)
  • 经济学 — 政策效果的统计检验
  • 组合管理 — Alpha 显著性检验、业绩归因
  • 权益投资 — 回归系数显著性检验
  • 假设检验 — 检验统计量是假设检验框架的核心工具
  • 中心极限定理 — 为 z/t 检验提供理论基础(大样本下样本均值近似正态)
  • 相关系数 — 相关系数的显著性检验使用 t 统计量
  • 标准差 — 标准误的计算依赖标准差;方差检验的核心对象