LC8 Hypothesis testing & Computational alternatives

假设检验的定义与例子

• 假设检验的形式化定义：假设 $$\theta$$ 是我们感兴趣的未知参数， S 是所有可能的取值集合。我们将 S 分成两个互斥的子集 $$S_0$$ 和 $$S_1$$ ：

• $$H_0 ： \theta \in S_0$$ （零假设），即我们最初假设为真的条件。

• $$H_1 ： \theta \in S_1$$ （备择假设），它是与零假设相对立的假设。

例子：在 Arbuthnot 性别比例的例子中，假设我们感兴趣的是某个比例 p ，我们可以提出以下假设：

• $$H_0 ： p = 0.5$$ （性别比例为 0.5，即男女平等）。

• $$H_1 ： p \neq 0.5$$ （性别比例不同于 0.5）。

检验统计量（Test Statistic）

• 定义：检验统计量是从观测数据（如样本均值）计算得出的值，用来进行假设检验。我们根据检验统计量 W 的值来判断是否接受零假设。

• 接受区域和拒绝区域：

• 接受区域 A ：如果检验统计量落在该区域内，我们接受零假设 $H_0$ 。

• 拒绝区域 R ：如果检验统计量落在该区域内，我们拒绝零假设 $H_0$ ，接受备择假设 $H_1$ 。

例如，假设我们的检验统计量服从标准正态分布 $N(0,1)$ ，在95%的置信区间内，接受区域为 $A = [-1.96, 1.96]$ ，超出这个范围的值则落入拒绝区域。

第一类错误和第二类错误

• 第一类错误（Type I Error）：错误地拒绝了一个实际上为真的零假设。这被称为“假阳性”。

• 例如：在一个刑事审判中，假设 $H_0$ 为“被告无罪”。如果我们拒绝了 $H_0$ （即判定有罪），但实际上被告无罪，那么这就是第一类错误。

• 第二类错误（Type II Error）：未能拒绝一个实际上为假的零假设。这被称为“假阴性”。

• 例如：如果我们支持 $H_0$（即判定无罪），但实际上被告有罪，那么这就是第二类错误。

• 权衡：通常存在第一类错误和第二类错误之间的权衡。增加一个错误的概率，往往会减少另一个错误的概率。一般情况下，我们希望同时减少这两类错误的发生率。

进一步讨论

• 通常，我们希望将第一类错误的概率（记为 $\alpha$）控制在较小的范围内，例如 0.05。当 $\alpha$ 较小的时候，我们能够更好地控制错误拒绝真假设的可能性。

针对均值的假设检验

• 假设：我们有一个随机样本 $X_1, X_2, …, X_n$，目标是对总体均值 $\mu$ 做出推断。

• 常见的假设检验类型：

• 双侧检验： $H_0: \mu = \mu_0$ 和 $H_1: \mu \neq \mu_0$

• 单侧检验： $H_0: \mu \leq \mu_0$ 和 $H_1: \mu > \mu_0$ 或 $H_0: \mu \geq \mu_0$ 和 $H_1: \mu < \mu_0$

• 双侧检验（常见）：我们只覆盖最常见的双侧检验，它比较两侧的极端值，以评估样本均值与假设的总体均值是否不同。

小样本均值的假设检验

• 假设我们的样本量较小（ n < 30 ），并且我们想要判断样本均值是否与给定的值 $\mu_0$ 相同。

• 当总体的方差未知时，我们使用 t 分布，而不是标准正态分布。

• t 检验统计量：$T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$

• 其中， $\bar{X}$ 是样本均值， s 是样本标准差， n 是样本大小。

• 检验统计量服从 $t_{n-1}$ 分布（自由度为 n-1 ）。

• 如果 $|T| \leq t_{\alpha/2, n-1}$，我们接受零假设，否则拒绝零假设。

p 值的定义和计算

• p 值：p 值表示在假设零假设 H_0 为真的前提下，检验统计量达到或超过观测值的概率。p 值越小，意味着观测到的数据在零假设成立的条件下发生的可能性越小。

• 当 p 值小于显著性水平（如 0.05）时，数据对零假设的支持较弱，通常我们会拒绝零假设。

针对均值的单样本 t 检验的 p 值计算

• 在双侧检验中，我们计算两侧的概率，并将其最小值乘以2，来计算 p 值。

• 例如，如果观察到的 t 值为 -2，我们计算 P(T \leq -2) ，并乘以2，得到 p 值。

• 示例：假设我们有一个 IQ 测试的样本，其中 n = 10 ，样本均值为 100.6，样本标准差为 16.27，t 值为 0.117。p 值计算为： $p = 2 \cdot (1 - P(T \leq 0.117)) \approx 0.909$

p 值的解释

• 小的 p 值表明数据与零假设 H_0 相矛盾。

• 通常，在社会科学中，p 值小于 0.05 被认为具有统计显著性。

• 选择显著性水平：在分析数据之前选择显著性水平是避免决策偏见的好做法。

比例的假设检验步骤：

• 目标：假设我们想要检验某个真实比例 p 是否等于一个假设值 p_0 。

• 条件：如果样本量 $n$ 满足 $n \cdot p_0 > 10 和 n \cdot (1 - p_0) > 10$，我们可以使用正态分布来近似处理。这是因为当样本量较大时，二项分布接近于正态分布。

检验统计量（Z 统计量）：

• 用于进行比例检验的统计量 Z 定义为：

$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}
$$
• $$\hat{p}$$ 是样本中的观察比例。

• $$p_0$$ 是假设的比例。

• $$n$$ 是样本大小。

在零假设 $H_0$ 成立的情况下， Z 统计量服从标准正态分布 $N(0,1)$。

通过计算 Z 值，我们可以判断样本中观察到的比例与假设的比例 $p_0$ 之间的差异是否显著，从而决定是否拒绝零假设 $H_0$ 。

Monte Carlo

1. 计算替代方案

• 传统的分析和数值解可能对于某些问题不存在，或者在实践中太复杂或耗时。因此，计算机模拟成为解决复杂问题的有效工具。

• 模拟的原理：它依赖于重复的随机抽样，通过大量模拟实验，提供近似解。只要模拟足够多次，结果通常会非常接近真实情况。

• 实际应用：这类方法在频率统计学（Frequentist approach）中经常被使用，通过反复抽样理解样本分布。

2. 蒙特卡罗模拟

• 蒙特卡罗方法起源于20世纪40年代的原子弹项目，其名字来自摩纳哥的首都，以赌博著名，象征随机性。

• 应用场景：蒙特卡罗模拟可用于以下任务：

• 确定分布的属性（如均值、中位数、方差等）。

• 计算置信区间（包括总体均值的置信区间）。

• 分析函数的分布（如 X^2 或 log(X) 的分布）。

• 解决包含多个变量的复杂分布问题。

3. 蒙特卡罗模拟的步骤

• 蒙特卡罗模拟通常遵循以下步骤：

1. 设计表示实际情况的模型：建立一个反映现实问题的数学模型或随机过程。

2. 生成多个可能结果的集合：通过随机输入生成许多结果集，模拟可能发生的不同情况。

3. 计算结果：对生成的结果集进行相关的计算和分析。

4. 分析结果：总结和分析结果，得出接近真实情况的结论。

4. 实例和应用

• 模拟方法可以用来演示统计原理，接下来可以运用到更实际的应用中。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。