Posted on 

Statistic and Data Science notes

LC3 Random variables and discrete probability distributions

Random variable

Formal definition of a random variable:A function mapping the sample space to the real line

X : Function that maps outcomes to real numbers

• X(s) : The numerical value of X for outcome s

• C0uld be many-to-one

• Deterministic (non-random)

• Typically denoted with capital letters

• Function (A.2 in book): in: domain, out: target

LC 7. Confidence intervals and univariate hypothesis testing

Descriptive statistics:Concerned with observed data: finding sample means, sample medians etc.

Inferential statistics:Infers properties of populations. Assumed that observed data is representative of population. Testing hypotheses, estimating models

Descriptive concepts

统计推断:描述性概念

点估计

​ • 定义:点估计是从数据中计算出的单一值,例如样本均值或样本方差,用于估计未知的总体参数。

​ • 背景:点估计是基于样本数据对总体参数的最佳估计。

关于点估计:

​ • 总体参数θ:我们感兴趣的固定参数(例如总体均值),不是一个随机变量。

​ • 数据X₁, X₂, X₃,…:构成来自总体的随机样本。

​ • 点估计 $$\hat{\theta}$$:使用样本数据通过估计函数 $$h(X₁, X₂, X₃, …)$$ 计算出的点估计。这个函数被称为估计规则或函数,用于基于总体数据计算给定属性 $$θ$$ 的估计值。

​ • 随机变量:点估计 $$\hat{\theta}$$ 是一个随机变量,因为它依赖于样本,其值会因为样本的不同而变化。

点估计的例子:

​ • 包括均值、方差、标准差、众数等,这些都是从样本中得到的单点数据。

区间估计的动机

​ • 局限性:点估计(如样本均值或方差)提供一个数值,试图代表某个总体参数(如总体均值)。然而,单个数值无法表达该估计的不确定性或可能的误差范围。

​ • 更全面的替代:区间估计不仅提供一个中心值,而是给出一个范围,这个范围被认为有很高的概率包含了真实的总体参数。这种方法特别有用,因为它能明确表示估计的不确定性,为决策提供了更为坚实的基础。

区间估计的定义与示例

​ • 定义:区间估计生成一个数值范围,而不是单一的点估计。这个范围被认为有高概率包含了真实的总体参数值。

​ • 示例:如果点估计的均值是120,那么区间估计可能是[115, 125]。我们希望并相信这个区间包含了真实的总体均值。区间的两端值(115和125)代表了可能的最小和最大估计值。

区间的长度

​ • 重要性:区间的长度反映了估计的精度。区间越短,表示估计的不确定性越小,我们对估计的精确度越有信心。

​ • 示例:如果一个区间估计是[30.69, 37.81],则区间长度是7.12。这个长度较短表明对总体参数估计的精确度较高。

置信水平

​ • 定义:置信水平表示我们有多大信心认为所计算的区间确实包含了总体参数。这通常是在进行估计之前选择的一个概率值(如95%、99%)。

​ • α(alpha):置信水平与α值相关,α是在统计显著性测试中使用的,表示统计测试中犯第一类错误(拒真错误)的概率。

置信区间概览

​ 1. 定义及公式:

​ • 置信区间包括两部分:下界(\hat{\theta}_L)和上界(\hat{\theta}_H)。

​ • 表达总体参数(\theta)落在这些界限内的概率的公式是:P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_H) \geq 1 - \alpha。这里的 \alpha 代表显著性水平,如 0.05 对应 95% 的置信区间。

​ 2. 置信区间的含义:

​ • 它提供了一个基于样本数据,被认为以一定置信度(例如95%或99%)包含总体参数的范围。

​ • 这个区间并不是说在任何一个样本中都有95%的概率包含该参数,而是意味着如果重复多次采样和计算,大约95%的这样的区间预期会包含总体参数。

​ 3. 应用与解释:

​ • 如果进行重复采样并为每个样本计算置信区间,预期约有95%(对于95%的CI)的区间会包含总体参数。

​ • 需要注意的是,单个计算出的区间不具有95%的概率包含参数;而是如果重复多次该过程,95%的此类区间将包含该参数。

计算方法的详细解释

​ 1. 统计基础:

​ • 置信区间的计算通常假设数据遵循正态分布,尤其是当样本量足够大时(根据中心极限定理)。

​ • 对于正态分布的数据,如果样本量或总体方差未知,通常使用学生t分布而不是正态分布。

​ 2. 计算步骤:

​ • 确定所需的置信水平(例如,95%,对应 \alpha = 0.05)。

​ • 从适当的分布(正态或t分布)计算临界值(x_L 和 x_H)。这些值切除了分布的尾部,使得它们之间的区域等于置信水平(例如,95%)。

​ • 然后根据这些临界值计算置信区间的界限,通过样本均值和标准误差的估计进行调整(这取决于总体标准差是否已知)。

​ 3. 视觉与概念理解:

​ • 图形和视觉表现通常伴随解释,以示意如何通过临界值切除分布的尾部,显示对应于置信水平的中心区域。

统计推断中的反函数(Inverse Functions)

​ • 定义:反函数是原函数的逆运算。在统计学中,特别是在累积分布函数(CDF)和其逆函数(即量化函数)的上下文中,这一概念尤为重要。

​ • 举例:

​ • F(x):累积分布函数(CDF),给定一个值x,输出随机变量小于或等于x的概率。

​ • F⁻¹(x):逆累积分布函数,给定一个概率p,输出随机变量的值,使得该随机变量小于或等于这个值的概率恰好为p。

​ • 常见函数:pnorm 和 qnorm分别为正态分布的 CDF 和逆 CDF,pexp 和 qexp 分别为指数分布的 CDF 和逆 CDF。

置信区间的求解方法

​ • 正态分布的置信区间:

​ • 假设你有一个大样本来自具有未知均值μ和已知方差σ²的总体。

​ • 样本均值($$\bar{X}_n$$):用于估计μ。

​ • 标准误($$\sigma / \sqrt{n}$$):用于量化样本均值的变异性。

​ • 通过标准化变换($$(\bar{X}_n - \mu) / (\sigma / \sqrt{n}$$)),样本均值的分布可以近似为标准正态分布($$N(0,1)$$)。

​ • 由中心极限定理(CLT),上述转换的结果接近 $$N(0,1)$$,使我们能利用标准正态分布表或计算器得到临界值。

置信区间的实际应用

​ • 如何使用R计算:

​ • 确定样本均值(my_mean)和标准差(my_sd),以及显著性水平α(例如0.05对应95%的置信水平)。

​ • 利用qnorm函数计算分位数:

​ • $$qnorm(alpha/2)$$计算下界的临界值。

​ • $$qnorm(1-alpha/2)$$计算上界的临界值。

​ • 这两个值用来构建关于样本均值的95%置信区间。

几何解释和图示

​ • 幻灯片中的图示帮助解释了如何从概率密度函数(PDF)中切割出95%的区域,并通过反函数确定对应的x值范围。

​ • 这种视觉表示方式清晰地展示了置信区间在数学上的意义和计算方法,使其更易于理解和应用。

中心极限定理和置信区间的计算

​ 1. 中心极限定理的作用:

​ • 无论总体分布如何,只要样本量足够大,样本均值的分布趋向于正态分布。这一性质允许我们对样本均值使用正态分布的性质来进行推断。

​ 2. 样本均值的标准化:

​ • 通过标准化变换(\bar{X} - \mu) / (\sigma / \sqrt{n}),可以将样本均值转化为标准正态分布(均值为0,标准差为1的正态分布)。这种转化简化了置信区间的计算。

​ 3. 置信区间的计算方法:

​ • 使用正态分布的逆累积分布函数(quantile function,即 \Phi^{-1} ),我们可以找到特定置信水平下的临界值(如95%置信水平下的±1.96)。

​ • 置信区间可以表示为 \bar{X} \pm Z \cdot (\sigma / \sqrt{n}),其中 Z 是临界值。

总体标准差未知时的处理

​ 1. 使用样本标准差:

​ • 当总体标准差(\sigma)未知时,可以使用样本标准差(s)来估计。这种情况下,使用的是t分布而不是正态分布,因为样本标准差自身带有不确定性。

​ 2. t分布的应用:

​ • t分布考虑了样本大小带来的自由度调整。当样本大小(n)较小时,t分布比正态分布有更宽的尾部,这反映了估计的额外不确定性。

​ • 置信区间使用t分布的临界值来计算,形式为 \bar{X} \pm t_{\alpha/2, n-1} \cdot (s / \sqrt{n}),其中 t_{\alpha/2, n-1} 是在给定自由度(n-1)下的t分布的双侧临界值。

置信区间的几何解释

​ • 幻灯片中的图形展示了正态分布的PDF,并标记了95%置信区间对应的区域。这帮助观众直观地看到置信区间如何从正态分布的性质中得出,以及标准差如何影响区间宽度。

  1. 何时使用 t 分布?

​ • 样本量较小时(n < 30):

​ • 当样本量较小时(小于30),建议使用 t 分布而不是正态分布。t 分布适用于在总体标准差未知且样本量小的情况,因为它能够更好地处理因样本变异性引起的不确定性。

​ • 当 n > 30 时,t 分布接近于标准正态分布($$N(0, 1)$$)。不过,具体的临界点可能存在争议,有些建议 n > 40 才更为稳妥。

​ • 总结:如果知道总体标准差,无论样本量多大,都应该使用标准正态分布;如果不知道总体标准差,则根据样本量选择 t 分布或正态分布。

  1. 非正态分布时如何处理?

​ • 如果总体不是正态分布:

​ • 中心极限定理:当样本量大时,即便总体不是正态分布,样本均值的分布仍会趋于正态分布,这意味着可以继续使用标准正态分布进行估计。

​ • 采样总体接近正态分布:如果总体接近正态分布,样本量不必太大即可使用正态分布进行推断。

​ • 分布偏态严重:当分布偏态较大时,可以进行数据变换,例如对数变换。经典的例子是收入数据的分布,使用对数变换后更接近正态分布。

  1. 关于比例的置信区间

​ • Bernoulli 分布:用于表示单次试验中成功与失败的概率。比如 $$X \sim Bern(p)$$,p 是成功的概率。

​ • 二项分布:当处理多次独立的 Bernoulli 试验时,数据服从二项分布。基于这个前提,二项分布的置信区间可以通过样本中的成功比例估计得出。

​ • 置信区间公式:对于比例 $$\hat{p}$$ ,其置信区间可以表示为:
$$
\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$
其中 $$z_{\alpha/2}$$ 是标准正态分布下的临界值。

LC8 Hypothesis testing & Computational alternatives

假设检验的定义与例子

​ • 假设检验的形式化定义:假设 $$\theta$$ 是我们感兴趣的未知参数, S 是所有可能的取值集合。我们将 S 分成两个互斥的子集 $$S_0$$ 和 $$S_1$$ :

​ • $$H_0 : \theta \in S_0$$ (零假设),即我们最初假设为真的条件。

​ • $$H_1 : \theta \in S_1$$ (备择假设),它是与零假设相对立的假设。

例子:在 Arbuthnot 性别比例的例子中,假设我们感兴趣的是某个比例 p ,我们可以提出以下假设:

​ • $$H_0 : p = 0.5$$ (性别比例为 0.5,即男女平等)。

​ • $$H_1 : p \neq 0.5$$ (性别比例不同于 0.5)。

检验统计量(Test Statistic)

​ • 定义:检验统计量是从观测数据(如样本均值)计算得出的值,用来进行假设检验。我们根据检验统计量 W 的值来判断是否接受零假设。

​ • 接受区域和拒绝区域:

​ • 接受区域 A :如果检验统计量落在该区域内,我们接受零假设 $H_0$ 。

​ • 拒绝区域 R :如果检验统计量落在该区域内,我们拒绝零假设 $H_0$ ,接受备择假设 $H_1$ 。

例如,假设我们的检验统计量服从标准正态分布 $N(0,1)$ ,在95%的置信区间内,接受区域为 $A = [-1.96, 1.96]$ ,超出这个范围的值则落入拒绝区域。

第一类错误和第二类错误

​ • 第一类错误(Type I Error):错误地拒绝了一个实际上为真的零假设。这被称为“假阳性”。

​ • 例如:在一个刑事审判中,假设 $H_0$ 为“被告无罪”。如果我们拒绝了 $H_0$ (即判定有罪),但实际上被告无罪,那么这就是第一类错误。

​ • 第二类错误(Type II Error):未能拒绝一个实际上为假的零假设。这被称为“假阴性”。

​ • 例如:如果我们支持 $H_0$(即判定无罪),但实际上被告有罪,那么这就是第二类错误。

​ • 权衡:通常存在第一类错误和第二类错误之间的权衡。增加一个错误的概率,往往会减少另一个错误的概率。一般情况下,我们希望同时减少这两类错误的发生率。

进一步讨论

​ • 通常,我们希望将第一类错误的概率(记为 $\alpha$)控制在较小的范围内,例如 0.05。当 $\alpha$ 较小的时候,我们能够更好地控制错误拒绝真假设的可能性。

针对均值的假设检验

​ • 假设:我们有一个随机样本 $X_1, X_2, …, X_n$,目标是对总体均值 $\mu$ 做出推断。

​ • 常见的假设检验类型:

​ • 双侧检验: $H_0: \mu = \mu_0$ 和 $H_1: \mu \neq \mu_0$

​ • 单侧检验: $H_0: \mu \leq \mu_0$ 和 $H_1: \mu > \mu_0$ 或 $H_0: \mu \geq \mu_0$ 和 $H_1: \mu < \mu_0$

​ • 双侧检验(常见):我们只覆盖最常见的双侧检验,它比较两侧的极端值,以评估样本均值与假设的总体均值是否不同。

小样本均值的假设检验

​ • 假设我们的样本量较小( n < 30 ),并且我们想要判断样本均值是否与给定的值 $\mu_0$ 相同。

​ • 当总体的方差未知时,我们使用 t 分布,而不是标准正态分布。

​ • t 检验统计量:$T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$

​ • 其中, $\bar{X}$ 是样本均值, s 是样本标准差, n 是样本大小。

​ • 检验统计量服从 $t_{n-1}$ 分布(自由度为 n-1 )。

​ • 如果 $|T| \leq t_{\alpha/2, n-1}$,我们接受零假设,否则拒绝零假设。

p 值的定义和计算

​ • p 值:p 值表示在假设零假设 H_0 为真的前提下,检验统计量达到或超过观测值的概率。p 值越小,意味着观测到的数据在零假设成立的条件下发生的可能性越小。

​ • 当 p 值小于显著性水平(如 0.05)时,数据对零假设的支持较弱,通常我们会拒绝零假设。

针对均值的单样本 t 检验的 p 值计算

​ • 在双侧检验中,我们计算两侧的概率,并将其最小值乘以2,来计算 p 值。

​ • 例如,如果观察到的 t 值为 -2,我们计算 P(T \leq -2) ,并乘以2,得到 p 值。

​ • 示例:假设我们有一个 IQ 测试的样本,其中 n = 10 ,样本均值为 100.6,样本标准差为 16.27,t 值为 0.117。p 值计算为: $p = 2 \cdot (1 - P(T \leq 0.117)) \approx 0.909$

p 值的解释

​ • 小的 p 值表明数据与零假设 H_0 相矛盾。

​ • 通常,在社会科学中,p 值小于 0.05 被认为具有统计显著性。

​ • 选择显著性水平:在分析数据之前选择显著性水平是避免决策偏见的好做法。

比例的假设检验步骤:

​ • 目标:假设我们想要检验某个真实比例 p 是否等于一个假设值 p_0 。

​ • 条件:如果样本量 $n$ 满足 $n \cdot p_0 > 10 和 n \cdot (1 - p_0) > 10$,我们可以使用正态分布来近似处理。这是因为当样本量较大时,二项分布接近于正态分布。

检验统计量(Z 统计量):

​ • 用于进行比例检验的统计量 Z 定义为:

$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}
$$
​ • $$\hat{p}$$ 是样本中的观察比例。

​ • $$p_0$$ 是假设的比例。

​ • $$n$$ 是样本大小。

在零假设 $H_0$ 成立的情况下, Z 统计量服从标准正态分布 $N(0,1)$。

通过计算 Z 值,我们可以判断样本中观察到的比例与假设的比例 $p_0$ 之间的差异是否显著,从而决定是否拒绝零假设 $H_0$ 。

Monte Carlo

1. 计算替代方案

​ • 传统的分析和数值解可能对于某些问题不存在,或者在实践中太复杂或耗时。因此,计算机模拟成为解决复杂问题的有效工具。

​ • 模拟的原理:它依赖于重复的随机抽样,通过大量模拟实验,提供近似解。只要模拟足够多次,结果通常会非常接近真实情况。

​ • 实际应用:这类方法在频率统计学(Frequentist approach)中经常被使用,通过反复抽样理解样本分布。

2. 蒙特卡罗模拟

​ • 蒙特卡罗方法起源于20世纪40年代的原子弹项目,其名字来自摩纳哥的首都,以赌博著名,象征随机性。

​ • 应用场景:蒙特卡罗模拟可用于以下任务:

​ • 确定分布的属性(如均值、中位数、方差等)。

​ • 计算置信区间(包括总体均值的置信区间)。

​ • 分析函数的分布(如 X^2 或 log(X) 的分布)。

​ • 解决包含多个变量的复杂分布问题。

3. 蒙特卡罗模拟的步骤

​ • 蒙特卡罗模拟通常遵循以下步骤:

​ 1. 设计表示实际情况的模型:建立一个反映现实问题的数学模型或随机过程。

​ 2. 生成多个可能结果的集合:通过随机输入生成许多结果集,模拟可能发生的不同情况。

​ 3. 计算结果:对生成的结果集进行相关的计算和分析。

​ 4. 分析结果:总结和分析结果,得出接近真实情况的结论。

4. 实例和应用

​ • 模拟方法可以用来演示统计原理,接下来可以运用到更实际的应用中。


.

.