LC 7. Confidence intervals and univariate hypothesis testing
LC 7. Confidence intervals and univariate hypothesis testing
Descriptive statistics:Concerned with observed data: finding sample means, sample medians etc.
Inferential statistics:Infers properties of populations. Assumed that observed data is representative of population. Testing hypotheses, estimating models
Descriptive concepts
统计推断:描述性概念
点估计
• 定义:点估计是从数据中计算出的单一值,例如样本均值或样本方差,用于估计未知的总体参数。
• 背景:点估计是基于样本数据对总体参数的最佳估计。
关于点估计:
• 总体参数θ:我们感兴趣的固定参数(例如总体均值),不是一个随机变量。
• 数据X₁, X₂, X₃,…:构成来自总体的随机样本。
• 点估计 $$\hat{\theta}$$:使用样本数据通过估计函数 $$h(X₁, X₂, X₃, …)$$ 计算出的点估计。这个函数被称为估计规则或函数,用于基于总体数据计算给定属性 $$θ$$ 的估计值。
• 随机变量:点估计 $$\hat{\theta}$$ 是一个随机变量,因为它依赖于样本,其值会因为样本的不同而变化。
点估计的例子:
• 包括均值、方差、标准差、众数等,这些都是从样本中得到的单点数据。
区间估计的动机
• 局限性:点估计(如样本均值或方差)提供一个数值,试图代表某个总体参数(如总体均值)。然而,单个数值无法表达该估计的不确定性或可能的误差范围。
• 更全面的替代:区间估计不仅提供一个中心值,而是给出一个范围,这个范围被认为有很高的概率包含了真实的总体参数。这种方法特别有用,因为它能明确表示估计的不确定性,为决策提供了更为坚实的基础。
区间估计的定义与示例
• 定义:区间估计生成一个数值范围,而不是单一的点估计。这个范围被认为有高概率包含了真实的总体参数值。
• 示例:如果点估计的均值是120,那么区间估计可能是[115, 125]。我们希望并相信这个区间包含了真实的总体均值。区间的两端值(115和125)代表了可能的最小和最大估计值。
区间的长度
• 重要性:区间的长度反映了估计的精度。区间越短,表示估计的不确定性越小,我们对估计的精确度越有信心。
• 示例:如果一个区间估计是[30.69, 37.81],则区间长度是7.12。这个长度较短表明对总体参数估计的精确度较高。
置信水平
• 定义:置信水平表示我们有多大信心认为所计算的区间确实包含了总体参数。这通常是在进行估计之前选择的一个概率值(如95%、99%)。
• α(alpha):置信水平与α值相关,α是在统计显著性测试中使用的,表示统计测试中犯第一类错误(拒真错误)的概率。
置信区间概览
1. 定义及公式:
• 置信区间包括两部分:下界(\hat{\theta}_L)和上界(\hat{\theta}_H)。
• 表达总体参数(\theta)落在这些界限内的概率的公式是:P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_H) \geq 1 - \alpha。这里的 \alpha 代表显著性水平,如 0.05 对应 95% 的置信区间。
2. 置信区间的含义:
• 它提供了一个基于样本数据,被认为以一定置信度(例如95%或99%)包含总体参数的范围。
• 这个区间并不是说在任何一个样本中都有95%的概率包含该参数,而是意味着如果重复多次采样和计算,大约95%的这样的区间预期会包含总体参数。
3. 应用与解释:
• 如果进行重复采样并为每个样本计算置信区间,预期约有95%(对于95%的CI)的区间会包含总体参数。
• 需要注意的是,单个计算出的区间不具有95%的概率包含参数;而是如果重复多次该过程,95%的此类区间将包含该参数。
计算方法的详细解释
1. 统计基础:
• 置信区间的计算通常假设数据遵循正态分布,尤其是当样本量足够大时(根据中心极限定理)。
• 对于正态分布的数据,如果样本量或总体方差未知,通常使用学生t分布而不是正态分布。
2. 计算步骤:
• 确定所需的置信水平(例如,95%,对应 \alpha = 0.05)。
• 从适当的分布(正态或t分布)计算临界值(x_L 和 x_H)。这些值切除了分布的尾部,使得它们之间的区域等于置信水平(例如,95%)。
• 然后根据这些临界值计算置信区间的界限,通过样本均值和标准误差的估计进行调整(这取决于总体标准差是否已知)。
3. 视觉与概念理解:
• 图形和视觉表现通常伴随解释,以示意如何通过临界值切除分布的尾部,显示对应于置信水平的中心区域。
统计推断中的反函数(Inverse Functions)
• 定义:反函数是原函数的逆运算。在统计学中,特别是在累积分布函数(CDF)和其逆函数(即量化函数)的上下文中,这一概念尤为重要。
• 举例:
• F(x):累积分布函数(CDF),给定一个值x,输出随机变量小于或等于x的概率。
• F⁻¹(x):逆累积分布函数,给定一个概率p,输出随机变量的值,使得该随机变量小于或等于这个值的概率恰好为p。
• 常见函数:pnorm 和 qnorm分别为正态分布的 CDF 和逆 CDF,pexp 和 qexp 分别为指数分布的 CDF 和逆 CDF。
置信区间的求解方法
• 正态分布的置信区间:
• 假设你有一个大样本来自具有未知均值μ和已知方差σ²的总体。
• 样本均值($$\bar{X}_n$$):用于估计μ。
• 标准误($$\sigma / \sqrt{n}$$):用于量化样本均值的变异性。
• 通过标准化变换($$(\bar{X}_n - \mu) / (\sigma / \sqrt{n}$$)),样本均值的分布可以近似为标准正态分布($$N(0,1)$$)。
• 由中心极限定理(CLT),上述转换的结果接近 $$N(0,1)$$,使我们能利用标准正态分布表或计算器得到临界值。
置信区间的实际应用
• 如何使用R计算:
• 确定样本均值(my_mean)和标准差(my_sd),以及显著性水平α(例如0.05对应95%的置信水平)。
• 利用qnorm函数计算分位数:
• $$qnorm(alpha/2)$$计算下界的临界值。
• $$qnorm(1-alpha/2)$$计算上界的临界值。
• 这两个值用来构建关于样本均值的95%置信区间。
几何解释和图示
• 幻灯片中的图示帮助解释了如何从概率密度函数(PDF)中切割出95%的区域,并通过反函数确定对应的x值范围。
• 这种视觉表示方式清晰地展示了置信区间在数学上的意义和计算方法,使其更易于理解和应用。
中心极限定理和置信区间的计算
1. 中心极限定理的作用:
• 无论总体分布如何,只要样本量足够大,样本均值的分布趋向于正态分布。这一性质允许我们对样本均值使用正态分布的性质来进行推断。
2. 样本均值的标准化:
• 通过标准化变换(\bar{X} - \mu) / (\sigma / \sqrt{n}),可以将样本均值转化为标准正态分布(均值为0,标准差为1的正态分布)。这种转化简化了置信区间的计算。
3. 置信区间的计算方法:
• 使用正态分布的逆累积分布函数(quantile function,即 \Phi^{-1} ),我们可以找到特定置信水平下的临界值(如95%置信水平下的±1.96)。
• 置信区间可以表示为 \bar{X} \pm Z \cdot (\sigma / \sqrt{n}),其中 Z 是临界值。
总体标准差未知时的处理
1. 使用样本标准差:
• 当总体标准差(\sigma)未知时,可以使用样本标准差(s)来估计。这种情况下,使用的是t分布而不是正态分布,因为样本标准差自身带有不确定性。
2. t分布的应用:
• t分布考虑了样本大小带来的自由度调整。当样本大小(n)较小时,t分布比正态分布有更宽的尾部,这反映了估计的额外不确定性。
• 置信区间使用t分布的临界值来计算,形式为 \bar{X} \pm t_{\alpha/2, n-1} \cdot (s / \sqrt{n}),其中 t_{\alpha/2, n-1} 是在给定自由度(n-1)下的t分布的双侧临界值。
置信区间的几何解释
• 幻灯片中的图形展示了正态分布的PDF,并标记了95%置信区间对应的区域。这帮助观众直观地看到置信区间如何从正态分布的性质中得出,以及标准差如何影响区间宽度。
- 何时使用 t 分布?
• 样本量较小时(n < 30):
• 当样本量较小时(小于30),建议使用 t 分布而不是正态分布。t 分布适用于在总体标准差未知且样本量小的情况,因为它能够更好地处理因样本变异性引起的不确定性。
• 当 n > 30 时,t 分布接近于标准正态分布($$N(0, 1)$$)。不过,具体的临界点可能存在争议,有些建议 n > 40 才更为稳妥。
• 总结:如果知道总体标准差,无论样本量多大,都应该使用标准正态分布;如果不知道总体标准差,则根据样本量选择 t 分布或正态分布。
- 非正态分布时如何处理?
• 如果总体不是正态分布:
• 中心极限定理:当样本量大时,即便总体不是正态分布,样本均值的分布仍会趋于正态分布,这意味着可以继续使用标准正态分布进行估计。
• 采样总体接近正态分布:如果总体接近正态分布,样本量不必太大即可使用正态分布进行推断。
• 分布偏态严重:当分布偏态较大时,可以进行数据变换,例如对数变换。经典的例子是收入数据的分布,使用对数变换后更接近正态分布。
- 关于比例的置信区间
• Bernoulli 分布:用于表示单次试验中成功与失败的概率。比如 $$X \sim Bern(p)$$,p 是成功的概率。
• 二项分布:当处理多次独立的 Bernoulli 试验时,数据服从二项分布。基于这个前提,二项分布的置信区间可以通过样本中的成功比例估计得出。
• 置信区间公式:对于比例 $$\hat{p}$$ ,其置信区间可以表示为:
$$
\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$
其中 $$z_{\alpha/2}$$ 是标准正态分布下的临界值。