Test Statistics 检验统计量
一句话定义
检验统计量 (test statistic) 是将样本信息浓缩为一个数值,用于衡量样本数据与零假设之间的偏离程度,并据此做出拒绝或不拒绝 的决策。
通用框架 Universal Framework
所有参数检验统计量都遵循同一个模板:
直觉:分子衡量”样本与假设有多远”,分母用标准误做标准化。比值越大,样本与 越不一致,越应该拒绝 。
一、z-test(z 检验)
适用条件
- 总体方差 已知
- 或者样本量很大(),即使 未知,t 分布已近似正态,可以近似使用 z
计算公式
其中:
- = 样本均值(sample mean)
- = 假设的总体均值(hypothesized population mean)
- = 已知的总体标准差(known population standard deviation)
- = 样本量(sample size)
分布特征
- 标准正态分布
- 对称、钟形、无自由度参数
- 尾部比 t 分布薄(更集中于中心)
常用临界值
| 显著性水平 | 单尾 | 双尾 |
|---|---|---|
| 10% | 1.28 | 1.65 |
| 5% | 1.65 | 1.96 |
| 1% | 2.33 | 2.58 |
记忆口诀
1.65 / 1.96 / 2.58 是 CFA 考试中最常用的三个临界值,分别对应 单尾5%、双尾5%、双尾1%。
计算示例
问题:总体标准差已知为 。抽样 100 个观测值,样本均值 。检验 vs ()。
双尾 5% 临界值 = 1.96。,拒绝 。
二、t-test(t 检验)
适用条件
- 总体方差 未知,用样本标准差 估计
- 总体近似正态分布(或 时由 CLT 保证)
实务中的核心检验
因为 在实际中几乎永远未知,所以 t-test 是最常用的检验。CFA 考试中,除非题目明确说 已知,否则一律用 t-test。
分布特征
- t 分布的形状由自由度 df 决定
- 比正态分布更”矮胖”:峰度更低、尾部更厚
- 时,t 分布收敛为标准正态分布
- 当 时,t 分布已与 z 分布非常接近
2.1 单总体均值检验 (One-sample t-test)
其中:
- = 样本标准差(sample standard deviation)
- = 自由度(degrees of freedom)
场景:检验某资产的平均收益是否等于某个基准值。
示例:36 个月的基金月均超额收益 ,。检验 (,双尾)。
,。,不拒绝 。超额收益不显著。
2.2 两独立样本均值差检验 (Two-sample t-test, independent)
其中:
- = 下的均值差假设值(通常为 0)
- = 合并标准差(pooled standard deviation)
前提假设
使用合并标准差 的前提是两总体方差相等(equal variances assumed)。如果方差不等,需使用 Welch’s t-test(CFA L1 一般假设方差相等)。
场景:比较两个投资策略/两组资产的平均收益是否有显著差异。
2.3 配对样本 t 检验 (Paired t-test)
其中:
- = 配对差值的样本均值(mean of paired differences)
- = 下的差值假设均值(通常为 0)
- = 配对差值的样本标准差(standard deviation of paired differences)
- = 配对的组数(number of pairs)
场景:同一只基金改策略前后的表现比较;同一组股票在不同市场环境下的收益比较。
示例:10 只基金改策略前后的平均收益差 ,。检验策略变更是否有效(,双尾)。
,。,不拒绝 。策略变更的效果不显著。
2.4 相关系数显著性检验 (Correlation significance t-test)
其中:
- = 样本 相关系数(sample correlation coefficient)
场景:检验两个变量之间的相关性是否统计上显著不为零。
三、Chi-square test( 卡方检验)
3.1 单总体方差检验
适用条件
- 检验总体方差是否等于某个假设值
- 总体需为正态分布(对正态性假设更敏感!)
计算公式
其中:
- = 样本方差(sample variance)
- = 假设的总体方差(hypothesized population variance)
分布特征
- 非对称分布,始终 (因为是方差之比,不可能为负)
- 右偏(right-skewed),随 df 增大逐渐趋向对称
- 双尾检验需要查两个临界值(上下各一个),不能简单用
考试陷阱
Chi-square 双尾检验时,上下两个临界值不是对称的!必须分别查 和 。
计算示例
问题:某基金宣称月度收益标准差 。24 个月样本数据 。检验 (,双尾)。
,临界值:,
,不拒绝 。
3.2 列联表独立性检验 (Chi-Square Test of Independence)
适用条件
- 检验两个分类变量(categorical variables)是否独立
计算公式
其中:
- = 观测频数(observed frequency)
- = 期望频数(expected frequency)
- = 行数(number of rows), = 列数(number of columns)
注意
独立性检验的 Chi-square 只看右尾: 值越大,说明观测与”独立假设”偏离越大。
四、F-test(F 检验)
适用条件
- 比较两个总体的方差是否相等
- 两总体均需为正态分布
计算公式
关键规则:大方差放分子,使 ,只查右尾临界值。
其中:
- = 较大的样本方差(larger sample variance → 分子)
- = 较小的样本方差(smaller sample variance → 分母)
- = 分子自由度, = 分母自由度
分布特征
- 值始终
- 右偏分布
- 由两个自由度参数决定形状:
- 表示两个方差完全相等
考试要点
F-test 是右尾检验:即使原假设是双尾的(),也通过”大方差放分子”转化为只看右尾。这意味着如果原题是双尾 5%,你应查 的右尾临界值。
计算示例
问题:两个基金收益方差分别为 ()和 ()。 检验两基金风险是否相等。
。,不拒绝 。两基金方差无显著差异。
五、回归中的检验统计量
斜率系数 t 检验
检验回归斜率是否显著不为零()。
回归整体 F 检验 (ANOVA F-test)
其中:
- = 回归均方(mean square regression)
- = 残差均方(mean square error)
- = 自变量个数(简单回归中 )
检验整个回归模型是否有解释力( 所有斜率系数 = 0)。
简单回归中的关系
在简单线性回归中,斜率 t 检验和 ANOVA F 检验完全等价:。
六、非参数检验 Non-parametric Tests
何时使用非参数检验?
- 数据不满足正态性假设(极度偏斜、存在极端异常值)
- 数据是排序/等级数据(ordinal data),不是连续数据
- 样本量太小,无法依赖 CLT
- 关注中位数而非均值
常见非参数方法
| 方法 | 目的 | 对应的参数检验 |
|---|---|---|
| Spearman 秩相关 | 检验两变量的单调关系(不限于线性) | Pearson 相关系数 t 检验 |
| Runs test | 检验数据序列是否随机 | 无直接对应 |
| Mann-Whitney U | 比较两独立样本的中位数 | 独立样本 t-test |
| Wilcoxon signed-rank | 比较配对样本的中位数差异 | 配对 t-test |
| Kruskal-Wallis | 比较多组的中位数 | One-way ANOVA |
Spearman 秩相关
其中 = 第 个观测的两组排名之差。
显著性检验( 时):,
Pearson vs Spearman
- Pearson:衡量线性关系,要求正态分布
- Spearman:衡量单调关系(包括非线性单调),不要求正态分布
- 如果 (秩相关比线性相关更强),提示可能存在非线性单调关系
参数 vs 非参数检验对比
| 参数检验 Parametric | 非参数检验 Non-parametric | |
|---|---|---|
| 分布假设 | 需要(通常正态) | 不需要或很少 |
| 数据类型 | 连续数据 | 排序/等级数据也可 |
| Power | 假设成立时更强 | 通常较弱(需更大样本量) |
| 适用场景 | 数据近似正态、样本足够大 | 分布未知、偏斜严重、存在异常值 |
快速决策树 Quick Decision Tree
flowchart TD START["要检验什么?"] --> Q1{"检验<b>均值</b>?"} START --> Q2{"检验<b>方差</b>?"} START --> Q3{"检验<b>独立性</b>?"} START --> Q4{"检验<b>相关性</b>?"} Q1 -->|"单总体"| A1{"σ 已知?"} A1 -->|"是"| Z1["<b>z-test</b><br/>z = (X̄-μ₀)/(σ/√n)"] A1 -->|"否"| T1["<b>t-test</b><br/>df = n-1"] Q1 -->|"两独立样本"| A2{"方差是否相等?"} A2 -->|"相等"| T2["<b>Pooled t-test</b><br/>df = n₁+n₂-2"] A2 -->|"不等"| T2W["<b>Welch's t-test</b>"] Q1 -->|"配对样本"| T3["<b>Paired t-test</b><br/>df = n-1"] Q2 -->|"单总体"| CHI["<b>χ² test</b><br/>df = n-1"] Q2 -->|"两总体"| F1["<b>F-test</b><br/>大方差放分子<br/>df = (n₁-1, n₂-1)"] Q3 -->|"分类变量"| CHI2["<b>χ² 独立性检验</b><br/>df = (r-1)(c-1)"] Q4 -->|"正态数据"| PEAR["<b>Pearson t-test</b><br/>df = n-2"] Q4 -->|"非正态/排序数据"| SPEAR["<b>Spearman 秩相关</b>"] style Z1 fill:#e8f5e9 style T1 fill:#e3f2fd style T2 fill:#e3f2fd style T2W fill:#e3f2fd style T3 fill:#e3f2fd style CHI fill:#fff3e0 style F1 fill:#fce4ec style CHI2 fill:#fff3e0 style PEAR fill:#e3f2fd style SPEAR fill:#f3e5f5
极简速查表
| 你要检验… | 方差/分布情况 | 用什么检验 | 自由度 |
|---|---|---|---|
| 单总体均值 | 已知 | z-test | — |
| 单总体均值 | 未知 | t-test | |
| 两独立样本均值差 | 方差相等 | Pooled t-test | |
| 配对样本均值差 | — | Paired t-test | |
| 单总体方差 | 正态总体 | test | |
| 两总体方差比 | 正态总体 | F-test | |
| 两分类变量独立性 | — | 独立性检验 | |
| 相关系数 ≠ 0 | 正态 | t-test | |
| 单调关系 | 非正态/排序 | Spearman |
易混淆点 Common Confusions
必读:考试中最容易出错的地方
1. z-test vs t-test 选择
- 唯一区别: 是否已知。已知 → z,未知 → t
- 实务中: 几乎永远未知,所以几乎都用 t-test
- 大样本近似:当 时,t 分布近似 z 分布,两者结果几乎相同
- 考试默认:除非题目明确说”总体标准差已知”,否则用 t-test
2. 独立样本 vs 配对样本
- 独立样本:两组完全不同的观测对象(如两个不同基金)→ Pooled t-test
- 配对样本:同一组观测对象在两个条件下的比较(如同一基金策略变更前后)→ Paired t-test
- 关键判断:观测值之间是否有”天然配对”关系
3. Chi-square 的两种用途混淆
- 方差检验:,df =
- 独立性检验:,df =
- 两者公式完全不同!不要混用
4. F-test 陷阱
- 大方差一定放分子,不是”第一组放分子”
- 即使是双尾假设(),也只看右尾
- 双尾检验时: 应查 (不是 )的右尾值
5. Chi-square 双尾检验
- Chi-square 分布不对称,不能像 t/z 一样用 同一个值
- 双尾检验需要查两个不同的临界值: 和
- 落在两个临界值之间 → 不拒绝
6. 自由度记忆
- 单均值 t / 配对 t / Chi-square(方差):df = n - 1
- 两独立样本 t:df = n₁ + n₂ - 2
- 相关系数 t / 回归斜率 t:df = n - 2
- F-test:df = (n₁-1, n₂-1),两个自由度
- 独立性 Chi-square:df = (r-1)(c-1)
7. “不拒绝” ≠ “接受”
- “Fail to reject ” ≠ “Accept ”
- 不拒绝只是说证据不足,不是说 为真
8. 统计显著 ≠ 经济意义
- 统计上显著(statistically significant)只是说偏差不太可能由随机误差造成
- 不代表这个偏差在经济/投资决策中有实际意义
- 大样本时,极小的差异也可能统计显著
考试要点 Exam Focus
必考
- 通用公式:
- z 临界值必须背:1.65(单尾5%)、1.96(双尾5%)、2.58(双尾1%)
- t-test 是默认选择(因为 几乎永远未知)
- F-test 大方差放分子,只看右尾
- Chi-square 双尾需查两个不对称的临界值
- 非参数检验适用于:不满足正态性假设、排序数据、样本太小
- Power = ,增大样本量可以提高 Power
涉及科目 Appears In
- 数量方法 R8 (Hypothesis Testing), R9 (Tests of Independence), R10 (Regression significance tests)
- 经济学 — 政策效果的统计检验
- 组合管理 — Alpha 显著性检验、业绩归因
- 权益投资 — 回归系数显著性检验