Discrete Choice Modeling
lecture1 离散选择模型简介
用于建模从一组互斥且穷尽的选项中选择的行为。
- 应用场景:
- 解释特定选择的影响因素。
- 预测结果,如分类观察。
线性回归与离散选择模型
- 线性回归 (OLS):
- 公式: $y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i$
- 假设: 有效性、代表性、线性、误差独立、误差方差相等。
- 线性概率模型 (LPM):
- 用于二元结果,但可能违反线性回归的假设,且预测值可能超出0-1范围。
逻辑回归
- 逻辑回归:
- 用于二元结果,预测值在0-1之间。
- 公式: $\ln \left( \frac{p}{1 - p} \right) = X \beta$
- 概率计算: $p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
- 优势比 (Odds Ratio):
- 解释系数: $\exp(\beta)$ 表示每增加一个单位 $x$,事件发生的优势比变化。
关键概念总结
- 伯努利分布: 二元随机变量的概率分布,$Y \sim Bernoulli(p)$。
- 二项分布: 多次独立伯努利试验的分布,$Y \sim Binomial(n, p) $。
- 期望与方差:
- 期望: $E[Y] = p$
- 方差: $Var[Y] = p(1 - p)$
lecture2
6. 不同結果的模型選擇
- 二元結果:
- 線性概率模型(LPM)、邏輯回歸(Logistic Regression)或Probit模型。
- 名義結果:
- 多項Logit(Multinomial Logit)、條件Logit(Conditional Logit)。
- 有序結果:
- 有序Logit(Ordinal Logit)或有序Probit(Ordinal Probit)。
7. 二元變量與伯努利分布
- 二元變量:
- 只能取兩個值,通常表示不同的類別或狀態,例如 $Y \in {0,1}$。
- 需要明確0和1代表的具體含義,例如0表示死亡,1表示生存。
- 伯努利分布:
- 如果 $Y \in {0,1}$,則 $Y$ 服從伯努利分布:
- $Y \sim Bernoulli(p)$
- $Pr(Y = 1) = p$
- $Pr(Y = 0) = 1 - p$
- $p$ 是唯一的參數,表示 $Y = 1$ 的概率。
- 如果 $Y \in {0,1}$,則 $Y$ 服從伯努利分布:
8. 伯努利分布的期望與方差
- 期望:
- 對於伯努利分布, $E[Y] = p$。
- 方差:
- 對於伯努利分布, $Var[Y] = p(1 - p)$。
9. 二項分布
- 二項分布:
- 描述了在 $n$ 次獨立伯努利試驗中,成功次數 $k$ 的概率分布。
- 公式:$Pr(Y = k|n, p) = \binom{n}{k}p^k(1 - p)^{n-k}$
- 伯努利分布是二項分布的特例,當 $n = 1$ 時。
10. 線性概率模型 (LPM)
- LPM:
- 將OLS回歸模型應用於二元結果變量。
- 條件期望的參數化形式為:$E(Y_i|X_i) = \alpha + \beta_1 X_{i1} + \beta_2 X_{i2} + …$
- 由於 $Y \in {0,1}$,期望可以解釋為概率:$ P(Y_i = 1|X_i) = E(Y_i|X_i)$
- LPM的問題:
- 違反線性回歸的假設。
- 可能給出不合理的預測值(超出0-1範圍)。
- 函數形式可能不符合實際情況。
11. 邏輯回歸 (Logistic Regression)
- Logit函數:
- Logit函數定義為:$logit(x) = \ln \left( \frac{x}{1-x} \right)$
- 當 $x$是概率時 $x \in [0,1]$ ,Logit函數的極限為 $\lim_{x \to 1} = \infty, \quad \lim_{x \to 0} = -\infty$
- 邏輯回歸的公式:
- 邏輯回歸的公式為 $ \ln \left( \frac{Pr(y = 1|x)}{1 - Pr(y = 1|x)} \right) = X\beta$
- 概率計算為:$p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
- 這樣,概率值始終在0到1之間。
12. 解釋邏輯回歸的係數
- 係數的解釋:
- $\beta$ 表示 $x$ 每增加一個單位,對數優勢(log odds)的變化。
- 例如, $\beta_{age} \approx -0.005$,表示每增加一歲,生存的對數優勢減少0.005。
- 優勢比 (Odds Ratio):
- 優勢比定義為 $\frac{p}{1 - p}$
- 邏輯回歸中,優勢比的變化可以通過 $e^{\beta}$ 來解釋。
- 例如,$\exp(\beta_{age}) \approx 0.995$,表示每增加一歲,生存的優勢比減少約0.5%。
lecture3
1. 课程概述
- 课程名称: Discrete Choice Modelling 2025
- 第三讲内容: 主要介绍了广义线性模型(GLM)、逻辑回归的估计方法、模型解释、预测概率以及模型评估。
5. 广义线性模型 (GLM)
- 广义线性模型的三个要素:
- 线性预测器:例如 $\alpha + \beta_1 x_i$。
- 概率分布:假设生成结果变量的概率分布。
- 链接函数:将线性预测器与概率分布联系起来。
- OLS与逻辑回归的比较:
- OLS:
- 线性部分: $X_i \beta$
- 链接函数:恒等函数(identity)
- 分布族:正态分布
- 逻辑回归:
- 线性部分: $X_i \beta$
- 链接函数:logit函数
- 分布族:二项分布
- OLS:
6. 逻辑回归的估计
- 为什么不能使用最小二乘法?
- 由于逻辑回归的结果是离散的,最小二乘法不再是估计参数的最佳方法。
- 逻辑回归使用最大似然估计法(Maximum Likelihood Estimation, MLE)来估计参数。
- 最大似然估计:
- 似然函数表示在给定参数值下观察到数据的概率。
- 通过最大化似然函数来找到最佳参数值。
- 由于似然值通常非常小,通常使用对数似然函数进行计算:$\ell_n(\theta) = \ln(L_n(\theta)) = \sum_{i}^{n} \ln(f(y_i;\theta))$
$$
7. 逻辑回归的系数解释
- 系数的解释:
- $\beta$ 表示 x 每增加一个单位,对数优势(log odds)的变化。
- 例如, $\beta_{age} \approx -0.005$,表示每增加一岁,生存的对数优势减少0.005。
- $\beta_{male} \approx -2.5$,表示男性的生存对数优势比女性低2.5个单位。
- 优势比 (Odds Ratio):
- 优势比定义为:$\frac{p}{1 - p}$
- 通过指数化逻辑回归系数,可以得到优势比:$\frac{p’}{1 - p’} = e^{\beta_1} \frac{p}{1 - p}$
- 例如,$\exp(\beta_{age}) \approx 0.995$,表示每增加一岁,生存的优势比减少约0.5%。
8. 预测概率
- 预测概率的计算:
- 逻辑回归的预测概率公式为:$ p(x) = \frac{e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}{1 + e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}$
- 例如,计算一个20岁男性的生存概率:$\frac{\exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)}{1 + \exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)} \approx 0.215
$
- 预测概率的应用:
- 可以比较不同预测概率,或改变某个变量的值来观察概率的变化。
- 可以用于模型评估,例如计算正确分类的观察值数量。
9. 模型评估
- 标量拟合度量:
- 在线性回归中,使用 R^2 表示解释的方差比例。
- 对于分类结果模型,没有明显的 R^2 替代指标,但可以使用伪 R^2。
- 伪 R^2:
- McFadden’s R^2: $R_{MCF}^2 = 1 - \frac{\ln L(M_\beta)}{\ln L(M_\alpha)}$
- Cox and Snell’s R^2: $R_{C&S}^2 = 1 - \left[ \frac{L(M_\alpha)}{L(M_\beta)} \right]^{2/N}$
- Nagelkerke’s R^2: $R_N^2 = \frac{R_{C&S}^2}{\max R_{C&S}^2}$
- 信息准则:
- AIC (Akaike’s Information Criterion):
$AIC = -2 \ln \hat{L}(M_\beta) + 2k$ - BIC (Bayesian Information Criterion):
$BIC = -2 \ln \hat{L}(M_\beta) + \ln(N)k$
- AIC (Akaike’s Information Criterion):
10. 似然比检验
- 似然比检验:
- 用于比较嵌套模型,检验某个变量是否显著。
- 公式:
$G^2 = 2 \ln L(\text{Mod}{\text{unconstrained}}) - 2 \ln L(\text{Mod}{\text{constrained}})$ - 检验统计量服从 $\chi^2$ 分布,自由度等于两个模型参数数量的差异。
11. 边际效应
- 边际效应的类型:
- 平均边际效应 (AME)
- 均值处的边际效应 (MEM)
- 代表性值处的边际效应 (MER)
12. 总结
- 广义线性模型:
- 逻辑回归是广义线性模型的一种,适用于二元结果变量。
- 模型估计与解释:
- 使用最大似然估计法估计逻辑回归模型。
- 通过解释对数优势和优势比来理解变量的影响。
- 模型评估:
- 使用伪$R^2$、AIC、BIC 等指标评估模型拟合度。
- 使用似然比检验比较嵌套模型。
lecture4
主要介绍了数据可视化、逻辑回归的边际效应、数据框的合并操作等内容。
数据导入与可视化
- 数据导入:
- 使用Tidyverse包导入数据,支持多种数据格式:
- 内置数据集:如
titanic
、socviz
、gapminder
。 - API导入:如
pxweb
、WDI
。 - 分隔符文件:如CSV文件,使用
readr
包中的read_csv
、read_csv2
等函数。 - SAS、SPSS、Stata文件:使用
haven
包导入。 - Excel文件:使用
readxl
包导入。 - XML和HTML文件:使用
xml2
包解析。 - 网页抓取:使用
rvest
包。 - 数据库:使用
dbplyr
包连接MySQL、Postgres等数据库。
- 内置数据集:如
- 使用Tidyverse包导入数据,支持多种数据格式:
6. 逻辑回归的边际效应
- 边际效应的定义:
- 边际效应表示解释变量 x 的变化对结果变量 y 的影响。
- 在线性回归中,边际效应是常数(即回归系数 $\beta$)。
- 在逻辑回归中,边际效应取决于 x 的值,因为逻辑回归是非线性模型。
- 逻辑回归的边际效应公式:
- 对于连续变量:$\frac{\partial}{\partial x} p_i = \beta_x p_i (1 - p_i)$
- 对于虚拟变量 $\Delta y = f(x = 1) - f(x = 0)$
- 边际效应的计算方式:
- **平均边际效应 (AME)**:计算每个观测值的边际效应,然后取平均值。
- **均值处的边际效应 (MEM)**:将所有协变量设为其均值,计算边际效应。
- **代表性值处的边际效应 (MER)**:选择特定的协变量值,计算边际效应。
使用 marginaleffects
包计算边际效应
marginaleffects
包:- 用于计算逻辑回归模型的边际效应。
- 支持AME、MEM、MER等多种计算方式。
- 官网:https://marginaleffects.com/
8. 数据框的合并操作
- 数据框的合并:
- **
bind_rows
**:按行合并数据框(类似于rbind
)。 - **
bind_cols
**:按列合并数据框(类似于cbind
),但需要确保行对齐。
- **
- 数据框的连接操作:
- **
inner_join
**:只保留两个数据框中匹配的行。 - **
left_join
**:保留左表的所有行,右表只保留匹配的行。 - **
right_join
**:保留右表的所有行,左表只保留匹配的行。 - **
full_join
**:保留两个数据框的所有行,未匹配的行用NA
填充。 - **
semi_join
**:只保留左表中与右表匹配的行,不添加右表的列。 - **
anti_join
**:只保留左表中与右表不匹配的行。
- **
9. 数据框合并的示例
left_join
示例:- 合并
superheroes
和publishers
数据框,保留所有超级英雄的信息,并添加出版商的成立年份。 - 未匹配的出版商信息用
NA
填充。
- 合并
inner_join
示例:- 只保留两个数据框中匹配的行。
full_join
示例:- 保留两个数据框的所有行,未匹配的行用
NA
填充。
- 保留两个数据框的所有行,未匹配的行用
总结
- 数据可视化:
- 可视化是数据分析的重要步骤,不能仅依赖统计量。
- 不同类型的图表适用于不同的数据类型和分析目的。
- 逻辑回归的边际效应:
- 逻辑回归的边际效应是非线性的,取决于解释变量的值。
- 可以使用
marginaleffects
包计算AME、MEM、MER等边际效应。
- 数据框的合并:
- 使用
dplyr
包中的join
函数可以灵活地合并数据框,支持多种合并方式。
- 使用
lecture5
主要介绍了多项逻辑回归模型(Multinomial Logistic Regression, MNLM)、离散选择模型、模型解释、预测概率以及如何处理R中的问题。
卡方分布 ($\chi^2$)
- 卡方分布的定义:
- 卡方分布是连续概率分布,常用于统计假设检验,特别是涉及分类数据和拟合优度检验。
- 卡方分布是 $k$ 个独立标准正态变量的平方和:
$V = Z_1^2 + Z_2^2 + \cdots + Z_k^2$
$V \sim \chi_k^2$
- 卡方分布的性质:
- 非负 ($\chi^2 \geq 0$)。
- 均值:$E[V] = k$。
- 方差:$V[V] = 2k$。
- 偏度:右偏,但随着 $k$ 的增加逐渐对称。
多项逻辑回归模型 (MNLM)
- 多项逻辑回归:
- 用于处理多个类别的分类问题。
- 与二元逻辑回归类似,但扩展到多个类别。
- 公式:
$$
\ln \left[ \frac{\Pr(A|x)}{\Pr(B|x)} \right] = \beta_{0,A|B} + \beta_{1,A|B} x
$$
$$
\ln \left[ \frac{\Pr(B|x)}{\Pr(C|x)} \right] = \beta_{0,B|C} + \beta_{1,B|C} x
$$
$$
\ln \left[ \frac{\Pr(A|x)}{\Pr(C|x)} \right] = \beta_{0,A|C} + \beta_{1,A|C} x
$$
- 参考类别的选择:
- 为了识别模型,通常将某个类别设为参考类别(如 $\beta_1 = 0$)。
- 参考类别的选择应便于解释。
多项逻辑回归的概率计算
- 概率公式:
- 对于参考类别 $\beta_1 = 0$,概率计算为:
$$
\Pr(y_i = 1 | x_i) = \frac{1}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}
$$
$$
\Pr(y_i = m | x_i) = \frac{\exp(x_i \beta_m)}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}; \text{for } m > 1
$$
- 对于参考类别 $\beta_1 = 0$,概率计算为:
多项逻辑回归的似然函数
- 似然函数:
- 多项逻辑回归模型通常使用最大似然估计法进行估计。
- 似然函数为:
$$
L(\beta; X) = \prod_{i=1}^{N} \prod_{j=1}^{K} \left( \frac{e^{X_i \beta_j}}{\sum_{k=1}^{K} e^{X_i \beta_k}} \right)^{I(y = j)}
$$ - 其中 $I(y = j)$ 是指示函数,当 $y = j$ 时为1,否则为0。
多项逻辑回归与离散选择模型
- 离散选择模型:
- McFadden (1973) 证明了离散选择模型可以推导出多项逻辑回归模型。
- 个体选择效用最大的选项,效用函数为:
$$
\mu_{im} = x_i \beta_m
$$ - 如果误差项 $\varepsilon$ 独立且服从类型I极值分布,则多项逻辑回归是离散选择模型的特例。
多项逻辑回归的系数解释
- 系数解释:
- 系数 $\beta_k$ 表示 $x$ 每增加一个单位,选择类别 $k$ 相对于参考类别的对数优势的变化。
- 优势比:
$$
\frac{p_k(x’ + 1)}{p_K(x’ + 1)} = e^{\beta_k} \frac{p_k(x’)}{p_K(x’)}
$$ - 优势比可以解释为 $x$ 每增加一个单位,选择类别 $k$ 相对于参考类别的优势比的变化。
预测概率与模型评估
- 预测概率:
- 可以计算每个观测值的预测概率,并与实际结果进行比较,评估模型的准确性。
- 公式:
$$
\Pr(y_i | X_i) = \frac{\exp(X_i \beta_j)}{\sum_{m=1}^J \exp(X_i \beta_m)}
$$
- 模型评估:
- 使用预测概率评估模型的分类准确性。
- 可以使用交叉验证或测试数据集来评估模型的泛化能力。
无关选项独立性假设 (IIA)
- IIA假设:
- IIA假设意味着添加或删除某个选项不会影响其他选项之间的相对优势。
- 例如,红巴士问题(Red Bus Problem)展示了IIA假设的局限性。
欧洲社会调查 (ESS)
- ESS概述:
- ESS是一项大规模的欧洲人口调查,每两年进行一次。
- 包含固定模块和轮换模块。
- 数据收集方式从面对面访谈逐渐转向网络问卷。
- 数据格式多样,支持Stata文件导入(使用
haven
包)。
- 权重处理:
- ESS数据包含设计权重(dweight)和后分层权重(pspweight),用于处理复杂抽样设计和非响应问题。
- 在分析时,可以使用
survey
或srvyr
包来处理权重和抽样设计。
总结
- 多项逻辑回归:
- 适用于多类别分类问题,通过最大似然估计法进行估计。
- 参考类别的选择对模型解释至关重要。
- 离散选择模型:
- 多项逻辑回归是离散选择模型的特例,适用于个体选择行为分析。
- 模型评估:
- 使用预测概率和交叉验证评估模型的准确性。
- ESS数据:
- ESS数据包含复杂的抽样设计和权重,分析时需考虑这些因素。
sds1_chi2_contingency_tables
1. 卡方检验概述
- 卡方检验:
- 用于检验分类变量之间的独立性。
- 适用于列联表(Contingency Table)数据,检验两个或多个分类变量是否相关。
- 原假设 $ H_0 $:变量之间独立(无关联)。
- 备择假设 $ H_1 $:变量之间相关(有关联)。
2. 卡方分布 ($ \chi^2 $)
- 卡方分布的定义:
- 卡方分布是 $ k $ 个独立标准正态变量的平方和:
$$
V = Z_1^2 + Z_2^2 + \cdots + Z_k^2
$$
$$
V \sim \chi_k^2
$$ - 其中 $ k $ 是自由度(degrees of freedom)。
- 卡方分布是 $ k $ 个独立标准正态变量的平方和:
- 卡方分布的性质:
- 均值:$ E[V] = k $。
- 方差:$ Var[V] = 2k $。
- 偏度:右偏,但随着 $ k $ 的增加逐渐对称。
3. 列联表(Contingency Table)
- 列联表的定义:
- 列联表用于展示两个或多个分类变量之间的关系。
- 行表示一个变量的类别,列表示另一个变量的类别,单元格中显示联合频数或百分比。
- 示例:
- 一个关于男性和女性教育水平的列联表:
女性教育水平 男性教育水平 总计 基础 高中 大学 9 8 13 16 20 9 6 13 6 总计 31 41
- 一个关于男性和女性教育水平的列联表:
4. 期望频数的计算
- 期望频数:
- 在原假设 $ H_0 $ 下,变量独立时,每个单元格的期望频数为:
$$
e_{ij} = \frac{o_i \cdot o_j}{n}
$$ - 其中 $ o_i $ 是第 $ i $ 行的总和,$ o_j $ 是第 $ j $ 列的总和,$ n $ 是总样本量。
- 在原假设 $ H_0 $ 下,变量独立时,每个单元格的期望频数为:
- 示例:
- 对于第2行第1列的期望频数:
$$
e_{21} = \frac{o_2 \cdot o_1}{n} = \frac{45 \times 31}{100} = 13.95
$$
- 对于第2行第1列的期望频数:
5. 卡方检验统计量的计算
- 卡方检验统计量:
- 卡方检验统计量用于衡量观测频数与期望频数之间的差异:
$$
\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}}
$$ - 其中 $ o_{ij} $ 是观测频数,$ e_{ij} $ 是期望频数。
- 卡方检验统计量用于衡量观测频数与期望频数之间的差异:
- 自由度:
- 自由度为 $ (r-1)(c-1) $,其中 $ r $ 是行数,$ c $ 是列数。
6. 卡方检验的步骤
- 设定假设:
- $ H_0 $:变量独立。
- $ H_1 $:变量相关。
- 计算期望频数:
- 使用公式 $ e_{ij} = \frac{o_i \cdot o_j}{n} $ 计算每个单元格的期望频数。
- 计算卡方统计量:
- 使用公式 $ \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}} $ 计算卡方统计量。
- 确定自由度:
- 自由度为 $ (r-1)(c-1) $。
- 计算p值:
- 使用卡方分布表或R函数
pchisq
计算p值。
- 使用卡方分布表或R函数
- 做出结论:
- 如果 $ p < \alpha $(通常为0.05),拒绝 $ H_0 $,认为变量相关。
- 否则,不拒绝 $ H_0 $,认为变量独立。
7. 卡方检验的示例
示例1:教育水平的关联性检验:
- 数据:男性和女性的教育水平列联表。
- 计算卡方统计量:
$$
\chi^2 = \frac{(9 - 9.3)^2}{9.3} + \frac{(8 - 12.3)^2}{12.3} + \cdots + \frac{(6 - 7)^2}{7} = 6.768
$$ - 自由度:$ (3-1)(3-1) = 4 $。
- p值:$ p = P(\chi^2_{df=4} \geq 6.768) = 0.1486 $。
- 结论:$ p > 0.05 $,不拒绝 $ H_0 $,认为男性和女性的教育水平独立。
示例2:性别与投票意向的关联性检验:
- 数据:男性和女性的投票意向列联表。
- 计算卡方统计量:
$$
\chi^2 = \frac{(23 - 28.16)^2}{28.16} + \frac{(21 - 15.84)^2}{15.84} + \frac{(41 - 35.84)^2}{35.84} + \frac{(15 - 20.16)^2}{20.16} = 4.69
$$ - 自由度:$ (2-1)(2-1) = 1 $。
- p值:$ p = P(\chi^2_{df=1} \geq 4.69) \approx 0.03 $。
- 结论:$ p < 0.05 $,拒绝 $ H_0 $,认为性别与投票意向相关。
8. 卡方检验的注意事项
- 期望频数的要求:
- 所有单元格的期望频数应大于5,否则卡方检验可能不适用。
- 如果期望频数小于5,可以考虑使用Fisher精确检验。
- 自由度:
- 自由度反映了列联表中可以自由变化的单元格数量。
- 自由度的计算公式为 $ (r-1)(c-1) $。
9. 总结
- 卡方检验:
- 用于检验分类变量之间的独立性。
- 通过比较观测频数与期望频数,计算卡方统计量。
- 根据卡方分布和自由度,计算p值并做出统计推断。
- 列联表:
- 用于展示两个或多个分类变量之间的关系。
- 期望频数的计算基于变量独立的假设。
- 应用场景:
- 卡方检验广泛应用于社会科学、医学、市场研究等领域,用于分析分类变量之间的关联性。
lecture6 McFadden Conditional Logistic Regression Model
2. 课程目标
- 动机:
- 理解条件逻辑回归模型的动机和应用场景。
- 区分决策者和替代项的特征:
- 区分决策者层面的变量和替代项层面的变量。
- 条件逻辑回归的概率函数:
- 解释条件逻辑回归的概率函数。
- 数据结构:
- 描述估计条件逻辑回归模型所需的数据结构。
- 系数解释:
- 解释条件逻辑回归模型的系数估计。
- 决策者层面变量的处理:
- 解释为什么决策者层面的变量没有主效应。
3. 动机问题:市场研究
- 问题背景:
- 假设你在汽车公司工作,计划推出新车型。
- 需要决定哪些特性(如燃料类型、燃油经济性、动力、空间等)对消费者最有吸引力。
- 目标是了解消费者对这些特性的偏好,并预测潜在销量。
- 解决方案:
- 使用离散选择实验(Discrete Choice Experiments)来模拟消费者的选择行为。
4. 离散选择实验
- 实验设计:
- 向潜在消费者展示一组汽车选项(如Volvo Estate、Tesla Sedan、Dodge Truck等)。
- 每个选项有不同的属性(如价格、燃料类型、动力等)。
- 记录消费者的选择。
- 问题:
- 传统的多项逻辑回归模型无法处理替代项层面的变量(如价格、燃料类型等)。
- 需要一种新的模型来捕捉这些替代项层面的特征对选择的影响。
5. McFadden 的条件逻辑回归模型
- 模型背景:
- 由诺贝尔经济学奖得主 Daniel McFadden 提出,用于预测经济选择。
- 是多项逻辑回归模型的扩展,能够处理替代项层面的变量。
- 模型公式:
$$
Pr(y_{ij} = 1) = \frac{e^{Z_{ij}\alpha_{ij}}}{\sum_{k=1}^{K_i} e^{Z_{ik}\alpha_{ik}}}
$$- $ y_{ij} = 1 $ 表示决策者 $ i $ 选择了替代项 $ j $。
- $ Z_{ij} $ 是替代项 $ j $ 的属性向量。
- $ \alpha_{ij} $ 是替代项 $ j $ 的系数向量,可能随决策者 $ i $ 变化。
- $ K_i $ 是决策者 $ i $ 的选择集中的替代项数量。
6. 数据结构
- 长格式数据:
- 数据通常以长格式存储,每个决策者的每个替代项占一行。
- 示例数据结构:
id college hsg2 coml5 alt choice type fuel cost 1 0 0 0 1 1 van eng 4 1 0 0 0 2 0 regcar eng 4 1 0 0 0 3 0 van electric 6 1 0 0 0 4 0 stwagon electric 6 1 0 0 0 5 0 van gasoline 8 1 0 0 0 6 0 truck gasoline 8
7. 模型估计与解释
- 模型估计:
- 使用最大似然估计法(Maximum Likelihood Estimation, MLE)估计模型参数。
- 系数解释:
- 系数 $ \alpha $ 表示替代项属性对选择概率的影响。
- 解释为相对概率或优势(odds),而不是优势比(odds ratio)。
- 例如,$ e^{\alpha} $ 表示替代项属性每增加一个单位,选择概率的相对变化。
8. 示例:加州替代燃料汽车选择
- 数据来源:
- 使用
Ecdat
包中的加州替代燃料汽车选择数据。 - 数据包含消费者对不同类型汽车的选择,汽车属性包括燃料类型、车身类型、成本等。
- 使用
- 模型结果:
- 模型估计了不同车身类型、燃料类型和成本对选择概率的影响。
- 示例解释:
- 选择SUV的概率是选择轿车的2.273倍($ e^{0.821} = 2.273 $)。
- 选择电动车的概率是选择汽油车的1.166倍($ e^{0.154} = 1.166 $)。
- 成本每增加10美分,选择概率降低7.5%($ e^{-0.078} = 0.925 $)。
9. 决策者层面的变量
- 决策者层面的变量:
- 决策者层面的变量(如收入、教育水平等)不能直接作为主效应进入模型。
- 因为这些变量在同一个决策者的不同替代项之间是相同的,无法区分选择。
- 交互项:
- 决策者层面的变量可以通过与替代项层面的变量交互进入模型。
- 例如,收入与价格的交互项可以捕捉高收入人群对价格的不敏感性。
10. 模型评估与预测
- 模型评估:
- 使用似然比检验(Likelihood Ratio Test)和信息准则(如AIC、BIC)评估模型拟合度。
- 预测概率:
- 可以计算每个决策者选择每个替代项的概率。
- 也可以进行样本外预测,给定新的决策者和选择集。
11. 总结
- 条件逻辑回归模型:
- 适用于分析决策者从多个替代项中选择的行为。
- 能够处理替代项层面的变量,捕捉替代项属性对选择的影响。
- 数据结构:
- 数据通常以长格式存储,每个决策者的每个替代项占一行。
- 系数解释:
- 系数表示替代项属性对选择概率的相对影响。
- 决策者层面的变量:
- 不能直接作为主效应进入模型,但可以通过交互项引入。