Test Statistics 检验统计量

一句话定义

检验统计量 (test statistic) 是将样本信息浓缩为一个数值，用于衡量样本数据与零假设之间的偏离程度，并据此做出拒绝或不拒绝 $H_{0}$ 的决策。

通用框架 Universal Framework

所有参数检验统计量都遵循同一个模板：

$Test statistic = \frac{Sample statistic - Hypothesized value}{Standard error}$

直觉：分子衡量”样本与假设有多远”，分母用标准误做标准化。比值越大，样本与 $H_{0}$ 越不一致，越应该拒绝 $H_{0}$ 。

一、z-test（z 检验）

适用条件

总体方差 $σ^{2}$ 已知
或者样本量很大（ $n \geq 30$ ），即使 $σ$ 未知，t 分布已近似正态，可以近似使用 z

计算公式

$z = \frac{X ˉ - μ _{0}}{σ / n}$

其中：

$\overset{ˉ}{X}$ = 样本均值（sample mean）
$μ_{0}$ = $H_{0}$ 假设的总体均值（hypothesized population mean）
$σ$ = 已知的总体标准差（known population standard deviation）
$n$ = 样本量（sample size）

分布特征

标准正态分布 $N (0, 1)$
对称、钟形、无自由度参数
尾部比 t 分布薄（更集中于中心）

常用临界值

显著性水平 $α$	单尾	双尾
10%	1.28	1.65
5%	1.65	1.96
1%	2.33	2.58

记忆口诀

1.65 / 1.96 / 2.58 是 CFA 考试中最常用的三个临界值，分别对应单尾5%、双尾5%、双尾1%。

计算示例

问题：总体标准差已知为 $σ = 10$ 。抽样 100 个观测值，样本均值 $\overset{ˉ}{X} = 52$ 。检验 $H_{0} : μ = 50$ vs $H_{a} : μ \neq = 50$ （ $α = 5%$ ）。

$z = \frac{52 - 50}{10/ 100} = \frac{2}{1} = 2.0$

双尾 5% 临界值 = 1.96。 $∣ z ∣ = 2.0 > 1.96$ ，拒绝 $H_{0}$ 。

二、t-test（t 检验）

适用条件

总体方差 $σ^{2}$ 未知，用样本标准差 $s$ 估计
总体近似正态分布（或 $n \geq 30$ 时由 CLT 保证）

实务中的核心检验

因为 $σ$ 在实际中几乎永远未知，所以 t-test 是最常用的检验。CFA 考试中，除非题目明确说 $σ$ 已知，否则一律用 t-test。

分布特征

t 分布的形状由自由度 df 决定
比正态分布更”矮胖”：峰度更低、尾部更厚
$df \to \infty$ 时，t 分布收敛为标准正态分布
当 $df \geq 30$ 时，t 分布已与 z 分布非常接近

2.1 单总体均值检验 (One-sample t-test)

$t = \frac{X ˉ - μ _{0}}{s / n}, df = n - 1$

其中：

$s$ = 样本标准差（sample standard deviation）
$df$ = 自由度（degrees of freedom）

场景：检验某资产的平均收益是否等于某个基准值。

示例：36 个月的基金月均超额收益 $\overset{ˉ}{X} = 0.8%$ ， $s = 3.6%$ 。检验 $H_{0} : μ = 0$ （ $α = 5%$ ，双尾）。

$t = \frac{0.8% - 0}{3.6%/ 36} = \frac{0.8%}{0.6%} = 1.33$

$df = 35$ ， $t_{cr i t i c a l} \approx 2.03$ 。 $1.33 < 2.03$ ，不拒绝 $H_{0}$ 。超额收益不显著。

2.2 两独立样本均值差检验 (Two-sample t-test, independent)

$t = \frac{( X ˉ _{1} - X ˉ _{2} ) - ( μ _{1} - μ _{2} ) _{0}}{s _{p} \frac{1}{n _{1}} + \frac{1}{n _{2}}}, df = n_{1} + n_{2} - 2$

其中：

$(μ_{1} - μ_{2})_{0}$ = $H_{0}$ 下的均值差假设值（通常为 0）
$s_{p} = \frac{( n _{1} - 1 ) s _{1}^{2} + ( n _{2} - 1 ) s _{2}^{2}}{n _{1} + n _{2} - 2}$ = 合并标准差（pooled standard deviation）

前提假设

使用合并标准差 $s_{p}$ 的前提是两总体方差相等（equal variances assumed）。如果方差不等，需使用 Welch’s t-test（CFA L1 一般假设方差相等）。

场景：比较两个投资策略/两组资产的平均收益是否有显著差异。

2.3 配对样本 t 检验 (Paired t-test)

$t = \frac{d ˉ - μ _{d 0}}{s _{d} / n}, df = n - 1$

其中：

$\overset{ˉ}{d}$ = 配对差值的样本均值（mean of paired differences）
$μ_{d 0}$ = $H_{0}$ 下的差值假设均值（通常为 0）
$s_{d}$ = 配对差值的样本标准差（standard deviation of paired differences）
$n$ = 配对的组数（number of pairs）

场景：同一只基金改策略前后的表现比较；同一组股票在不同市场环境下的收益比较。

示例：10 只基金改策略前后的平均收益差 $\overset{ˉ}{d} = 1.5%$ ， $s_{d} = 2.8%$ 。检验策略变更是否有效（ $α = 5%$ ，双尾）。

$t = \frac{1.5% - 0}{2.8%/ 10} = \frac{1.5%}{0.885%} = 1.69$

$df = 9$ ， $t_{cr i t i c a l} \approx 2.262$ 。 $1.69 < 2.262$ ，不拒绝 $H_{0}$ 。策略变更的效果不显著。

2.4 相关系数显著性检验 (Correlation significance t-test)

$t = \frac{r n - 2}{1 - r ^{2}}, df = n - 2$

其中：

$r$ = 样本相关系数（sample correlation coefficient）

场景：检验两个变量之间的相关性是否统计上显著不为零。

三、Chi-square test（ $χ^{2}$ 卡方检验）

3.1 单总体方差检验

适用条件

检验总体方差是否等于某个假设值
总体需为正态分布（对正态性假设更敏感！）

计算公式

$χ^{2} = \frac{( n - 1 ) s ^{2}}{σ _{0}^{2}}, df = n - 1$

其中：

$s^{2}$ = 样本方差（sample variance）
$σ_{0}^{2}$ = $H_{0}$ 假设的总体方差（hypothesized population variance）

分布特征

非对称分布，始终 $\geq 0$ （因为是方差之比，不可能为负）
右偏（right-skewed），随 df 增大逐渐趋向对称
双尾检验需要查两个临界值（上下各一个），不能简单用 $\pm$

考试陷阱

Chi-square 双尾检验时，上下两个临界值不是对称的！必须分别查 $χ_{α /2}^{2}$ 和 $χ_{1 - α /2}^{2}$ 。

计算示例

问题：某基金宣称月度收益标准差 $σ = 4%$ 。24 个月样本数据 $s = 3.8%$ 。检验 $H_{0} : σ^{2} = 0.0016$ （ $α = 5%$ ，双尾）。

$χ^{2} = \frac{23 \times ( 0.038 ) ^{2}}{( 0.04 ) ^{2}} = \frac{23 \times 0.001444}{0.0016} = 20.76$

$df = 23$ ，临界值： $χ_{0.975}^{2} = 11.689$ ， $χ_{0.025}^{2} = 38.076$

$11.689 < 20.76 < 38.076$ ，不拒绝 $H_{0}$ 。

3.2 列联表独立性检验 (Chi-Square Test of Independence)

适用条件

检验两个分类变量（categorical variables）是否独立

计算公式

$χ^{2} = \sum_{i} \sum_{j} \frac{( O _{ij} - E _{ij} ) ^{2}}{E _{ij}}, df = (r - 1) (c - 1)$

其中：

$O_{ij}$ = 观测频数（observed frequency）
$E_{ij} = \frac{Row _{i} total \times Column _{j} total}{Grand total}$ = 期望频数（expected frequency）
$r$ = 行数（number of rows）， $c$ = 列数（number of columns）

注意

独立性检验的 Chi-square 只看右尾： $χ^{2}$ 值越大，说明观测与”独立假设”偏离越大。

四、F-test（F 检验）

适用条件

比较两个总体的方差是否相等
两总体均需为正态分布

计算公式

$F = \frac{s _{1}^{2}}{s _{2}^{2}}, d f_{1} = n_{1} - 1, d f_{2} = n_{2} - 1$

关键规则：大方差放分子，使 $F \geq 1$ ，只查右尾临界值。

其中：

$s_{1}^{2}$ = 较大的样本方差（larger sample variance → 分子）
$s_{2}^{2}$ = 较小的样本方差（smaller sample variance → 分母）
$d f_{1}$ = 分子自由度， $d f_{2}$ = 分母自由度

分布特征

$F$ 值始终 $> 0$
右偏分布
由两个自由度参数决定形状： $(d f_{1}, d f_{2})$
$F = 1$ 表示两个方差完全相等

考试要点

F-test 是右尾检验：即使原假设是双尾的（ $H_{a} : σ_{1}^{2} \neq = σ_{2}^{2}$ ），也通过”大方差放分子”转化为只看右尾。这意味着如果原题是双尾 5%，你应查 $α /2 = 2.5%$ 的右尾临界值。

计算示例

问题：两个基金收益方差分别为 $s_{1}^{2} = 0.0036$ （ $n_{1} = 25$ ）和 $s_{2}^{2} = 0.0016$ （ $n_{2} = 21$ ）。 $α = 5%$ 检验两基金风险是否相等。

$F = \frac{0.0036}{0.0016} = 2.25, df = (24, 20)$

$F_{cr i t i c a l} (24, 20, 0.025) \approx 2.33$ 。 $2.25 < 2.33$ ，不拒绝 $H_{0}$ 。两基金方差无显著差异。

五、回归中的检验统计量

斜率系数 t 检验

$t = \frac{b ^ _{1} - 0}{s _{\hat{b}_{1}}}, df = n - 2$

检验回归斜率是否显著不为零（ $H_{0} : b_{1} = 0$ ）。

回归整体 F 检验 (ANOVA F-test)

$F = \frac{MSR}{MSE} = \frac{RSS / k}{SSE / ( n - k - 1 )}$

其中：

$MSR$ = 回归均方（mean square regression）
$MSE$ = 残差均方（mean square error）
$k$ = 自变量个数（简单回归中 $k = 1$ ）

检验整个回归模型是否有解释力（ $H_{0} :$ 所有斜率系数 = 0）。

简单回归中的关系

在简单线性回归中，斜率 t 检验和 ANOVA F 检验完全等价： $F = t^{2}$ 。

六、非参数检验 Non-parametric Tests

何时使用非参数检验？

数据不满足正态性假设（极度偏斜、存在极端异常值）
数据是排序/等级数据（ordinal data），不是连续数据
样本量太小，无法依赖 CLT
关注中位数而非均值

常见非参数方法

方法	目的	对应的参数检验
Spearman 秩相关	检验两变量的单调关系（不限于线性）	Pearson 相关系数 t 检验
Runs test	检验数据序列是否随机	无直接对应
Mann-Whitney U	比较两独立样本的中位数	独立样本 t-test
Wilcoxon signed-rank	比较配对样本的中位数差异	配对 t-test
Kruskal-Wallis	比较多组的中位数	One-way ANOVA

Spearman 秩相关

$r_{s} = 1 - \frac{6 \sum d _{i}^{2}}{n ( n ^{2} - 1 )}$

其中 $d_{i}$ = 第 $i$ 个观测的两组排名之差。

显著性检验（ $n > 30$ 时）： $t = \frac{r _{s} n - 2}{1 - r _{s}^{2}}$ ， $df = n - 2$

Pearson vs Spearman

Pearson：衡量线性关系，要求正态分布

Spearman：衡量单调关系（包括非线性单调），不要求正态分布

如果 $∣ r_{s} ∣ > ∣ r ∣$ （秩相关比线性相关更强），提示可能存在非线性单调关系

参数 vs 非参数检验对比

	参数检验 Parametric	非参数检验 Non-parametric
分布假设	需要（通常正态）	不需要或很少
数据类型	连续数据	排序/等级数据也可
Power	假设成立时更强	通常较弱（需更大样本量）
适用场景	数据近似正态、样本足够大	分布未知、偏斜严重、存在异常值

快速决策树 Quick Decision Tree

flowchart TD
    START["要检验什么？"] --> Q1{"检验<b>均值</b>？"}
    START --> Q2{"检验<b>方差</b>？"}
    START --> Q3{"检验<b>独立性</b>？"}
    START --> Q4{"检验<b>相关性</b>？"}

    Q1 -->|"单总体"| A1{"σ 已知？"}
    A1 -->|"是"| Z1["<b>z-test</b><br/>z = (X̄-μ₀)/(σ/√n)"]
    A1 -->|"否"| T1["<b>t-test</b><br/>df = n-1"]
    
    Q1 -->|"两独立样本"| A2{"方差是否相等？"}
    A2 -->|"相等"| T2["<b>Pooled t-test</b><br/>df = n₁+n₂-2"]
    A2 -->|"不等"| T2W["<b>Welch's t-test</b>"]
    
    Q1 -->|"配对样本"| T3["<b>Paired t-test</b><br/>df = n-1"]

    Q2 -->|"单总体"| CHI["<b>χ² test</b><br/>df = n-1"]
    Q2 -->|"两总体"| F1["<b>F-test</b><br/>大方差放分子<br/>df = (n₁-1, n₂-1)"]

    Q3 -->|"分类变量"| CHI2["<b>χ² 独立性检验</b><br/>df = (r-1)(c-1)"]

    Q4 -->|"正态数据"| PEAR["<b>Pearson t-test</b><br/>df = n-2"]
    Q4 -->|"非正态/排序数据"| SPEAR["<b>Spearman 秩相关</b>"]

    style Z1 fill:#e8f5e9
    style T1 fill:#e3f2fd
    style T2 fill:#e3f2fd
    style T2W fill:#e3f2fd
    style T3 fill:#e3f2fd
    style CHI fill:#fff3e0
    style F1 fill:#fce4ec
    style CHI2 fill:#fff3e0
    style PEAR fill:#e3f2fd
    style SPEAR fill:#f3e5f5

极简速查表

你要检验…	方差/分布情况	用什么检验	自由度
单总体均值	$σ$ 已知	z-test	—
单总体均值	$σ$ 未知	t-test	$n - 1$
两独立样本均值差	方差相等	Pooled t-test	$n_{1} + n_{2} - 2$
配对样本均值差	—	Paired t-test	$n - 1$
单总体方差	正态总体	$χ^{2}$ test	$n - 1$
两总体方差比	正态总体	F-test	$(n_{1} - 1, n_{2} - 1)$
两分类变量独立性	—	$χ^{2}$ 独立性检验	$(r - 1) (c - 1)$
相关系数 ≠ 0	正态	t-test	$n - 2$
单调关系	非正态/排序	Spearman	$n - 2$

易混淆点 Common Confusions

必读：考试中最容易出错的地方

1. z-test vs t-test 选择

唯一区别： $σ$ 是否已知。已知 → z，未知 → t
实务中： $σ$ 几乎永远未知，所以几乎都用 t-test
大样本近似：当 $n \geq 30$ 时，t 分布近似 z 分布，两者结果几乎相同
考试默认：除非题目明确说”总体标准差已知”，否则用 t-test

2. 独立样本 vs 配对样本

独立样本：两组完全不同的观测对象（如两个不同基金）→ Pooled t-test
配对样本：同一组观测对象在两个条件下的比较（如同一基金策略变更前后）→ Paired t-test
关键判断：观测值之间是否有”天然配对”关系

3. Chi-square 的两种用途混淆

方差检验： $χ^{2} = (n - 1) s^{2} / σ_{0}^{2}$ ，df = $n - 1$
独立性检验： $χ^{2} = \sum (O - E)^{2} / E$ ，df = $(r - 1) (c - 1)$
两者公式完全不同！不要混用

4. F-test 陷阱

大方差一定放分子，不是”第一组放分子”
即使是双尾假设（ $H_{a} : σ_{1}^{2} \neq = σ_{2}^{2}$ ），也只看右尾
双尾检验时： $F_{cr i t i c a l}$ 应查 $α /2$ （不是 $α$ ）的右尾值

5. Chi-square 双尾检验

Chi-square 分布不对称，不能像 t/z 一样用 $\pm$ 同一个值
双尾检验需要查两个不同的临界值： $χ_{l o w er}^{2}$ 和 $χ_{u pp er}^{2}$
落在两个临界值之间 → 不拒绝 $H_{0}$

6. 自由度记忆

单均值 t / 配对 t / Chi-square(方差)：df = n - 1
两独立样本 t：df = n₁ + n₂ - 2
相关系数 t / 回归斜率 t：df = n - 2
F-test：df = (n₁-1, n₂-1)，两个自由度
独立性 Chi-square：df = (r-1)(c-1)

7. “不拒绝” ≠ “接受”

“Fail to reject $H_{0}$ ” ≠ “Accept $H_{0}$ ”
不拒绝只是说证据不足，不是说 $H_{0}$ 为真

8. 统计显著 ≠ 经济意义

统计上显著（statistically significant）只是说偏差不太可能由随机误差造成
不代表这个偏差在经济/投资决策中有实际意义
大样本时，极小的差异也可能统计显著

考试要点 Exam Focus

必考

通用公式： $Test stat = \frac{样本 - 假设}{标准误}$

z 临界值必须背：1.65（单尾5%）、1.96（双尾5%）、2.58（双尾1%）

t-test 是默认选择（因为 $σ$ 几乎永远未知）

F-test 大方差放分子，只看右尾

Chi-square 双尾需查两个不对称的临界值

非参数检验适用于：不满足正态性假设、排序数据、样本太小

Power = $1 - β$ ，增大样本量可以提高 Power

涉及科目 Appears In

数量方法 R8 (Hypothesis Testing), R9 (Tests of Independence), R10 (Regression significance tests)
经济学 — 政策效果的统计检验
组合管理 — Alpha 显著性检验、业绩归因
权益投资 — 回归系数显著性检验

假设检验 — 检验统计量是假设检验框架的核心工具
中心极限定理 — 为 z/t 检验提供理论基础（大样本下样本均值近似正态）
相关系数 — 相关系数的显著性检验使用 t 统计量
标准差 — 标准误的计算依赖标准差；方差检验的核心对象

CFA L1 Notes

探索

Test Statistics 检验统计量

Test Statistics 检验统计量

通用框架 Universal Framework

一、z-test（z 检验）

适用条件

计算公式

分布特征

常用临界值

计算示例

二、t-test（t 检验）

适用条件

分布特征

2.1 单总体均值检验 (One-sample t-test)

2.2 两独立样本均值差检验 (Two-sample t-test, independent)

2.3 配对样本 t 检验 (Paired t-test)

2.4 相关系数显著性检验 (Correlation significance t-test)

三、Chi-square test（χ2 卡方检验）

3.1 单总体方差检验

适用条件

计算公式

分布特征

计算示例

3.2 列联表独立性检验 (Chi-Square Test of Independence)

适用条件

计算公式

四、F-test（F 检验）

适用条件

计算公式

分布特征

计算示例

五、回归中的检验统计量

斜率系数 t 检验

回归整体 F 检验 (ANOVA F-test)

六、非参数检验 Non-parametric Tests

何时使用非参数检验？

常见非参数方法

Spearman 秩相关

参数 vs 非参数检验对比

快速决策树 Quick Decision Tree

极简速查表

易混淆点 Common Confusions

1. z-test vs t-test 选择

2. 独立样本 vs 配对样本

3. Chi-square 的两种用途混淆

4. F-test 陷阱

5. Chi-square 双尾检验

6. 自由度记忆

7. “不拒绝” ≠ “接受”

8. 统计显著 ≠ 经济意义

考试要点 Exam Focus

涉及科目 Appears In

相关概念 Related Concepts

关系图谱

目录

反向链接

三、Chi-square test（ $χ^{2}$ 卡方检验）