LC8 Hypothesis testing & Computational alternatives
LC8 Hypothesis testing & Computational alternatives
假设检验的定义与例子
• 假设检验的形式化定义:假设 $$\theta$$ 是我们感兴趣的未知参数, S 是所有可能的取值集合。我们将 S 分成两个互斥的子集 $$S_0$$ 和 $$S_1$$ :
• $$H_0 : \theta \in S_0$$ (零假设),即我们最初假设为真的条件。
• $$H_1 : \theta \in S_1$$ (备择假设),它是与零假设相对立的假设。
例子:在 Arbuthnot 性别比例的例子中,假设我们感兴趣的是某个比例 p ,我们可以提出以下假设:
• $$H_0 : p = 0.5$$ (性别比例为 0.5,即男女平等)。
• $$H_1 : p \neq 0.5$$ (性别比例不同于 0.5)。
检验统计量(Test Statistic)
• 定义:检验统计量是从观测数据(如样本均值)计算得出的值,用来进行假设检验。我们根据检验统计量 W 的值来判断是否接受零假设。
• 接受区域和拒绝区域:
• 接受区域 A :如果检验统计量落在该区域内,我们接受零假设 $H_0$ 。
• 拒绝区域 R :如果检验统计量落在该区域内,我们拒绝零假设 $H_0$ ,接受备择假设 $H_1$ 。
例如,假设我们的检验统计量服从标准正态分布 $N(0,1)$ ,在95%的置信区间内,接受区域为 $A = [-1.96, 1.96]$ ,超出这个范围的值则落入拒绝区域。
第一类错误和第二类错误
• 第一类错误(Type I Error):错误地拒绝了一个实际上为真的零假设。这被称为“假阳性”。
• 例如:在一个刑事审判中,假设 $H_0$ 为“被告无罪”。如果我们拒绝了 $H_0$ (即判定有罪),但实际上被告无罪,那么这就是第一类错误。
• 第二类错误(Type II Error):未能拒绝一个实际上为假的零假设。这被称为“假阴性”。
• 例如:如果我们支持 $H_0$(即判定无罪),但实际上被告有罪,那么这就是第二类错误。
• 权衡:通常存在第一类错误和第二类错误之间的权衡。增加一个错误的概率,往往会减少另一个错误的概率。一般情况下,我们希望同时减少这两类错误的发生率。
进一步讨论
• 通常,我们希望将第一类错误的概率(记为 $\alpha$)控制在较小的范围内,例如 0.05。当 $\alpha$ 较小的时候,我们能够更好地控制错误拒绝真假设的可能性。
针对均值的假设检验
• 假设:我们有一个随机样本 $X_1, X_2, …, X_n$,目标是对总体均值 $\mu$ 做出推断。
• 常见的假设检验类型:
• 双侧检验: $H_0: \mu = \mu_0$ 和 $H_1: \mu \neq \mu_0$
• 单侧检验: $H_0: \mu \leq \mu_0$ 和 $H_1: \mu > \mu_0$ 或 $H_0: \mu \geq \mu_0$ 和 $H_1: \mu < \mu_0$
• 双侧检验(常见):我们只覆盖最常见的双侧检验,它比较两侧的极端值,以评估样本均值与假设的总体均值是否不同。
小样本均值的假设检验
• 假设我们的样本量较小( n < 30 ),并且我们想要判断样本均值是否与给定的值 $\mu_0$ 相同。
• 当总体的方差未知时,我们使用 t 分布,而不是标准正态分布。
• t 检验统计量:$T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$
• 其中, $\bar{X}$ 是样本均值, s 是样本标准差, n 是样本大小。
• 检验统计量服从 $t_{n-1}$ 分布(自由度为 n-1 )。
• 如果 $|T| \leq t_{\alpha/2, n-1}$,我们接受零假设,否则拒绝零假设。
p 值的定义和计算
• p 值:p 值表示在假设零假设 H_0 为真的前提下,检验统计量达到或超过观测值的概率。p 值越小,意味着观测到的数据在零假设成立的条件下发生的可能性越小。
• 当 p 值小于显著性水平(如 0.05)时,数据对零假设的支持较弱,通常我们会拒绝零假设。
针对均值的单样本 t 检验的 p 值计算
• 在双侧检验中,我们计算两侧的概率,并将其最小值乘以2,来计算 p 值。
• 例如,如果观察到的 t 值为 -2,我们计算 P(T \leq -2) ,并乘以2,得到 p 值。
• 示例:假设我们有一个 IQ 测试的样本,其中 n = 10 ,样本均值为 100.6,样本标准差为 16.27,t 值为 0.117。p 值计算为: $p = 2 \cdot (1 - P(T \leq 0.117)) \approx 0.909$
p 值的解释
• 小的 p 值表明数据与零假设 H_0 相矛盾。
• 通常,在社会科学中,p 值小于 0.05 被认为具有统计显著性。
• 选择显著性水平:在分析数据之前选择显著性水平是避免决策偏见的好做法。
比例的假设检验步骤:
• 目标:假设我们想要检验某个真实比例 p 是否等于一个假设值 p_0 。
• 条件:如果样本量 $n$ 满足 $n \cdot p_0 > 10 和 n \cdot (1 - p_0) > 10$,我们可以使用正态分布来近似处理。这是因为当样本量较大时,二项分布接近于正态分布。
检验统计量(Z 统计量):
• 用于进行比例检验的统计量 Z 定义为:
$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}
$$
• $$\hat{p}$$ 是样本中的观察比例。
• $$p_0$$ 是假设的比例。
• $$n$$ 是样本大小。
在零假设 $H_0$ 成立的情况下, Z 统计量服从标准正态分布 $N(0,1)$。
通过计算 Z 值,我们可以判断样本中观察到的比例与假设的比例 $p_0$ 之间的差异是否显著,从而决定是否拒绝零假设 $H_0$ 。
Monte Carlo
1. 计算替代方案
• 传统的分析和数值解可能对于某些问题不存在,或者在实践中太复杂或耗时。因此,计算机模拟成为解决复杂问题的有效工具。
• 模拟的原理:它依赖于重复的随机抽样,通过大量模拟实验,提供近似解。只要模拟足够多次,结果通常会非常接近真实情况。
• 实际应用:这类方法在频率统计学(Frequentist approach)中经常被使用,通过反复抽样理解样本分布。
2. 蒙特卡罗模拟
• 蒙特卡罗方法起源于20世纪40年代的原子弹项目,其名字来自摩纳哥的首都,以赌博著名,象征随机性。
• 应用场景:蒙特卡罗模拟可用于以下任务:
• 确定分布的属性(如均值、中位数、方差等)。
• 计算置信区间(包括总体均值的置信区间)。
• 分析函数的分布(如 X^2 或 log(X) 的分布)。
• 解决包含多个变量的复杂分布问题。
3. 蒙特卡罗模拟的步骤
• 蒙特卡罗模拟通常遵循以下步骤:
1. 设计表示实际情况的模型:建立一个反映现实问题的数学模型或随机过程。
2. 生成多个可能结果的集合:通过随机输入生成许多结果集,模拟可能发生的不同情况。
3. 计算结果:对生成的结果集进行相关的计算和分析。
4. 分析结果:总结和分析结果,得出接近真实情况的结论。
4. 实例和应用
• 模拟方法可以用来演示统计原理,接下来可以运用到更实际的应用中。