Posted on 

LC8 Hypothesis testing & Computational alternatives

LC8 Hypothesis testing & Computational alternatives

假设检验的定义与例子

​ • 假设检验的形式化定义:假设 $$\theta$$ 是我们感兴趣的未知参数, S 是所有可能的取值集合。我们将 S 分成两个互斥的子集 $$S_0$$ 和 $$S_1$$ :

​ • $$H_0 : \theta \in S_0$$ (零假设),即我们最初假设为真的条件。

​ • $$H_1 : \theta \in S_1$$ (备择假设),它是与零假设相对立的假设。

例子:在 Arbuthnot 性别比例的例子中,假设我们感兴趣的是某个比例 p ,我们可以提出以下假设:

​ • $$H_0 : p = 0.5$$ (性别比例为 0.5,即男女平等)。

​ • $$H_1 : p \neq 0.5$$ (性别比例不同于 0.5)。

检验统计量(Test Statistic)

​ • 定义:检验统计量是从观测数据(如样本均值)计算得出的值,用来进行假设检验。我们根据检验统计量 W 的值来判断是否接受零假设。

​ • 接受区域和拒绝区域:

​ • 接受区域 A :如果检验统计量落在该区域内,我们接受零假设 $H_0$ 。

​ • 拒绝区域 R :如果检验统计量落在该区域内,我们拒绝零假设 $H_0$ ,接受备择假设 $H_1$ 。

例如,假设我们的检验统计量服从标准正态分布 $N(0,1)$ ,在95%的置信区间内,接受区域为 $A = [-1.96, 1.96]$ ,超出这个范围的值则落入拒绝区域。

第一类错误和第二类错误

​ • 第一类错误(Type I Error):错误地拒绝了一个实际上为真的零假设。这被称为“假阳性”。

​ • 例如:在一个刑事审判中,假设 $H_0$ 为“被告无罪”。如果我们拒绝了 $H_0$ (即判定有罪),但实际上被告无罪,那么这就是第一类错误。

​ • 第二类错误(Type II Error):未能拒绝一个实际上为假的零假设。这被称为“假阴性”。

​ • 例如:如果我们支持 $H_0$(即判定无罪),但实际上被告有罪,那么这就是第二类错误。

​ • 权衡:通常存在第一类错误和第二类错误之间的权衡。增加一个错误的概率,往往会减少另一个错误的概率。一般情况下,我们希望同时减少这两类错误的发生率。

进一步讨论

​ • 通常,我们希望将第一类错误的概率(记为 $\alpha$)控制在较小的范围内,例如 0.05。当 $\alpha$ 较小的时候,我们能够更好地控制错误拒绝真假设的可能性。

针对均值的假设检验

​ • 假设:我们有一个随机样本 $X_1, X_2, …, X_n$,目标是对总体均值 $\mu$ 做出推断。

​ • 常见的假设检验类型:

​ • 双侧检验: $H_0: \mu = \mu_0$ 和 $H_1: \mu \neq \mu_0$

​ • 单侧检验: $H_0: \mu \leq \mu_0$ 和 $H_1: \mu > \mu_0$ 或 $H_0: \mu \geq \mu_0$ 和 $H_1: \mu < \mu_0$

​ • 双侧检验(常见):我们只覆盖最常见的双侧检验,它比较两侧的极端值,以评估样本均值与假设的总体均值是否不同。

小样本均值的假设检验

​ • 假设我们的样本量较小( n < 30 ),并且我们想要判断样本均值是否与给定的值 $\mu_0$ 相同。

​ • 当总体的方差未知时,我们使用 t 分布,而不是标准正态分布。

​ • t 检验统计量:$T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$

​ • 其中, $\bar{X}$ 是样本均值, s 是样本标准差, n 是样本大小。

​ • 检验统计量服从 $t_{n-1}$ 分布(自由度为 n-1 )。

​ • 如果 $|T| \leq t_{\alpha/2, n-1}$,我们接受零假设,否则拒绝零假设。

p 值的定义和计算

​ • p 值:p 值表示在假设零假设 H_0 为真的前提下,检验统计量达到或超过观测值的概率。p 值越小,意味着观测到的数据在零假设成立的条件下发生的可能性越小。

​ • 当 p 值小于显著性水平(如 0.05)时,数据对零假设的支持较弱,通常我们会拒绝零假设。

针对均值的单样本 t 检验的 p 值计算

​ • 在双侧检验中,我们计算两侧的概率,并将其最小值乘以2,来计算 p 值。

​ • 例如,如果观察到的 t 值为 -2,我们计算 P(T \leq -2) ,并乘以2,得到 p 值。

​ • 示例:假设我们有一个 IQ 测试的样本,其中 n = 10 ,样本均值为 100.6,样本标准差为 16.27,t 值为 0.117。p 值计算为: $p = 2 \cdot (1 - P(T \leq 0.117)) \approx 0.909$

p 值的解释

​ • 小的 p 值表明数据与零假设 H_0 相矛盾。

​ • 通常,在社会科学中,p 值小于 0.05 被认为具有统计显著性。

​ • 选择显著性水平:在分析数据之前选择显著性水平是避免决策偏见的好做法。

比例的假设检验步骤:

​ • 目标:假设我们想要检验某个真实比例 p 是否等于一个假设值 p_0 。

​ • 条件:如果样本量 $n$ 满足 $n \cdot p_0 > 10 和 n \cdot (1 - p_0) > 10$,我们可以使用正态分布来近似处理。这是因为当样本量较大时,二项分布接近于正态分布。

检验统计量(Z 统计量):

​ • 用于进行比例检验的统计量 Z 定义为:

$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}
$$
​ • $$\hat{p}$$ 是样本中的观察比例。

​ • $$p_0$$ 是假设的比例。

​ • $$n$$ 是样本大小。

在零假设 $H_0$ 成立的情况下, Z 统计量服从标准正态分布 $N(0,1)$。

通过计算 Z 值,我们可以判断样本中观察到的比例与假设的比例 $p_0$ 之间的差异是否显著,从而决定是否拒绝零假设 $H_0$ 。

Monte Carlo

1. 计算替代方案

​ • 传统的分析和数值解可能对于某些问题不存在,或者在实践中太复杂或耗时。因此,计算机模拟成为解决复杂问题的有效工具。

​ • 模拟的原理:它依赖于重复的随机抽样,通过大量模拟实验,提供近似解。只要模拟足够多次,结果通常会非常接近真实情况。

​ • 实际应用:这类方法在频率统计学(Frequentist approach)中经常被使用,通过反复抽样理解样本分布。

2. 蒙特卡罗模拟

​ • 蒙特卡罗方法起源于20世纪40年代的原子弹项目,其名字来自摩纳哥的首都,以赌博著名,象征随机性。

​ • 应用场景:蒙特卡罗模拟可用于以下任务:

​ • 确定分布的属性(如均值、中位数、方差等)。

​ • 计算置信区间(包括总体均值的置信区间)。

​ • 分析函数的分布(如 X^2 或 log(X) 的分布)。

​ • 解决包含多个变量的复杂分布问题。

3. 蒙特卡罗模拟的步骤

​ • 蒙特卡罗模拟通常遵循以下步骤:

​ 1. 设计表示实际情况的模型:建立一个反映现实问题的数学模型或随机过程。

​ 2. 生成多个可能结果的集合:通过随机输入生成许多结果集,模拟可能发生的不同情况。

​ 3. 计算结果:对生成的结果集进行相关的计算和分析。

​ 4. 分析结果:总结和分析结果,得出接近真实情况的结论。

4. 实例和应用

​ • 模拟方法可以用来演示统计原理,接下来可以运用到更实际的应用中。