Posted on 

Discrete Choice Modeling

lecture1 离散选择模型简介

用于建模从一组互斥且穷尽的选项中选择的行为。

  • 应用场景:
    • 解释特定选择的影响因素。
    • 预测结果,如分类观察。

线性回归与离散选择模型

  • 线性回归 (OLS):
    • 公式: $y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i$
    • 假设: 有效性、代表性、线性、误差独立、误差方差相等。
  • 线性概率模型 (LPM):
    • 用于二元结果,但可能违反线性回归的假设,且预测值可能超出0-1范围。

逻辑回归

  • 逻辑回归:
    • 用于二元结果,预测值在0-1之间。
    • 公式: $\ln \left( \frac{p}{1 - p} \right) = X \beta$
    • 概率计算: $p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
  • 优势比 (Odds Ratio):
    • 解释系数: $\exp(\beta)$ 表示每增加一个单位 $x$,事件发生的优势比变化。

关键概念总结

  • 伯努利分布: 二元随机变量的概率分布,$Y \sim Bernoulli(p)$。
  • 二项分布: 多次独立伯努利试验的分布,$Y \sim Binomial(n, p) $。
  • 期望与方差:
    • 期望: $E[Y] = p$
    • 方差: $Var[Y] = p(1 - p)$

lecture2

6. 不同結果的模型選擇

  • 二元結果:
    • 線性概率模型(LPM)、邏輯回歸(Logistic Regression)或Probit模型。
  • 名義結果:
    • 多項Logit(Multinomial Logit)、條件Logit(Conditional Logit)。
  • 有序結果:
    • 有序Logit(Ordinal Logit)或有序Probit(Ordinal Probit)。

7. 二元變量與伯努利分布

  • 二元變量:
    • 只能取兩個值,通常表示不同的類別或狀態,例如 $Y \in {0,1}$。
    • 需要明確0和1代表的具體含義,例如0表示死亡,1表示生存。
  • 伯努利分布:
    • 如果 $Y \in {0,1}$,則 $Y$ 服從伯努利分布:
      • $Y \sim Bernoulli(p)$
      • $Pr(Y = 1) = p$
      • $Pr(Y = 0) = 1 - p$
    • $p$ 是唯一的參數,表示 $Y = 1$ 的概率。

8. 伯努利分布的期望與方差

  • 期望:
    • 對於伯努利分布, $E[Y] = p$。
  • 方差:
    • 對於伯努利分布, $Var[Y] = p(1 - p)$。

9. 二項分布

  • 二項分布:
    • 描述了在 $n$ 次獨立伯努利試驗中,成功次數 $k$ 的概率分布。
    • 公式:$Pr(Y = k|n, p) = \binom{n}{k}p^k(1 - p)^{n-k}$
    • 伯努利分布是二項分布的特例,當 $n = 1$ 時。

10. 線性概率模型 (LPM)

  • LPM:
    • 將OLS回歸模型應用於二元結果變量。
    • 條件期望的參數化形式為:$E(Y_i|X_i) = \alpha + \beta_1 X_{i1} + \beta_2 X_{i2} + …$
    • 由於 $Y \in {0,1}$,期望可以解釋為概率:$ P(Y_i = 1|X_i) = E(Y_i|X_i)$
  • LPM的問題:
    • 違反線性回歸的假設。
    • 可能給出不合理的預測值(超出0-1範圍)。
    • 函數形式可能不符合實際情況。

11. 邏輯回歸 (Logistic Regression)

  • Logit函數:
    • Logit函數定義為:$logit(x) = \ln \left( \frac{x}{1-x} \right)$
    • 當 $x$是概率時 $x \in [0,1]$ ,Logit函數的極限為 $\lim_{x \to 1} = \infty, \quad \lim_{x \to 0} = -\infty$
  • 邏輯回歸的公式:
    • 邏輯回歸的公式為 $ \ln \left( \frac{Pr(y = 1|x)}{1 - Pr(y = 1|x)} \right) = X\beta$
    • 概率計算為:$p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
    • 這樣,概率值始終在0到1之間。

12. 解釋邏輯回歸的係數

  • 係數的解釋:
    • $\beta$ 表示 $x$ 每增加一個單位,對數優勢(log odds)的變化。
    • 例如, $\beta_{age} \approx -0.005$,表示每增加一歲,生存的對數優勢減少0.005。
  • 優勢比 (Odds Ratio):
    • 優勢比定義為 $\frac{p}{1 - p}$
    • 邏輯回歸中,優勢比的變化可以通過 $e^{\beta}$ 來解釋。
    • 例如,$\exp(\beta_{age}) \approx 0.995$,表示每增加一歲,生存的優勢比減少約0.5%。

lecture3

1. 课程概述

  • 课程名称: Discrete Choice Modelling 2025
  • 第三讲内容: 主要介绍了广义线性模型(GLM)、逻辑回归的估计方法、模型解释、预测概率以及模型评估。

5. 广义线性模型 (GLM)

  • 广义线性模型的三个要素:
    1. 线性预测器:例如 $\alpha + \beta_1 x_i$。
    2. 概率分布:假设生成结果变量的概率分布。
    3. 链接函数:将线性预测器与概率分布联系起来。
  • OLS与逻辑回归的比较:
    • OLS:
      • 线性部分: $X_i \beta$
      • 链接函数:恒等函数(identity)
      • 分布族:正态分布
    • 逻辑回归:
      • 线性部分: $X_i \beta$
      • 链接函数:logit函数
      • 分布族:二项分布

6. 逻辑回归的估计

  • 为什么不能使用最小二乘法?
    • 由于逻辑回归的结果是离散的,最小二乘法不再是估计参数的最佳方法。
    • 逻辑回归使用最大似然估计法(Maximum Likelihood Estimation, MLE)来估计参数。
  • 最大似然估计:
    • 似然函数表示在给定参数值下观察到数据的概率。
    • 通过最大化似然函数来找到最佳参数值。
    • 由于似然值通常非常小,通常使用对数似然函数进行计算:$\ell_n(\theta) = \ln(L_n(\theta)) = \sum_{i}^{n} \ln(f(y_i;\theta))$
      $$

7. 逻辑回归的系数解释

  • 系数的解释:
    • $\beta$ 表示 x 每增加一个单位,对数优势(log odds)的变化。
    • 例如, $\beta_{age} \approx -0.005$,表示每增加一岁,生存的对数优势减少0.005。
    • $\beta_{male} \approx -2.5$,表示男性的生存对数优势比女性低2.5个单位。
  • 优势比 (Odds Ratio):
    • 优势比定义为:$\frac{p}{1 - p}$
    • 通过指数化逻辑回归系数,可以得到优势比:$\frac{p’}{1 - p’} = e^{\beta_1} \frac{p}{1 - p}$
    • 例如,$\exp(\beta_{age}) \approx 0.995$,表示每增加一岁,生存的优势比减少约0.5%。

8. 预测概率

  • 预测概率的计算:
    • 逻辑回归的预测概率公式为:$ p(x) = \frac{e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}{1 + e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}$
    • 例如,计算一个20岁男性的生存概率:$\frac{\exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)}{1 + \exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)} \approx 0.215
      $
  • 预测概率的应用:
    • 可以比较不同预测概率,或改变某个变量的值来观察概率的变化。
    • 可以用于模型评估,例如计算正确分类的观察值数量。

9. 模型评估

  • 标量拟合度量:
    • 在线性回归中,使用 R^2 表示解释的方差比例。
    • 对于分类结果模型,没有明显的 R^2 替代指标,但可以使用伪 R^2。
  • 伪 R^2:
    • McFadden’s R^2: $R_{MCF}^2 = 1 - \frac{\ln L(M_\beta)}{\ln L(M_\alpha)}$
    • Cox and Snell’s R^2: $R_{C&S}^2 = 1 - \left[ \frac{L(M_\alpha)}{L(M_\beta)} \right]^{2/N}$
    • Nagelkerke’s R^2: $R_N^2 = \frac{R_{C&S}^2}{\max R_{C&S}^2}$
  • 信息准则:
    • AIC (Akaike’s Information Criterion):
      $AIC = -2 \ln \hat{L}(M_\beta) + 2k$
    • BIC (Bayesian Information Criterion):
      $BIC = -2 \ln \hat{L}(M_\beta) + \ln(N)k$

10. 似然比检验

  • 似然比检验:
    • 用于比较嵌套模型,检验某个变量是否显著。
    • 公式:
      $G^2 = 2 \ln L(\text{Mod}{\text{unconstrained}}) - 2 \ln L(\text{Mod}{\text{constrained}})$
    • 检验统计量服从 $\chi^2$ 分布,自由度等于两个模型参数数量的差异。

11. 边际效应

  • 边际效应的类型:
    • 平均边际效应 (AME)
    • 均值处的边际效应 (MEM)
    • 代表性值处的边际效应 (MER)

12. 总结

  • 广义线性模型:
    • 逻辑回归是广义线性模型的一种,适用于二元结果变量。
  • 模型估计与解释:
    • 使用最大似然估计法估计逻辑回归模型。
    • 通过解释对数优势和优势比来理解变量的影响。
  • 模型评估:
    • 使用伪$R^2$、AIC、BIC 等指标评估模型拟合度。
    • 使用似然比检验比较嵌套模型。

lecture4

主要介绍了数据可视化、逻辑回归的边际效应、数据框的合并操作等内容。

数据导入与可视化

  • 数据导入:
    • 使用Tidyverse包导入数据,支持多种数据格式:
      • 内置数据集:如 titanicsocvizgapminder
      • API导入:如 pxwebWDI
      • 分隔符文件:如CSV文件,使用 readr 包中的 read_csvread_csv2 等函数。
      • SAS、SPSS、Stata文件:使用 haven 包导入。
      • Excel文件:使用 readxl 包导入。
      • XML和HTML文件:使用 xml2 包解析。
      • 网页抓取:使用 rvest 包。
      • 数据库:使用 dbplyr 包连接MySQL、Postgres等数据库。

6. 逻辑回归的边际效应

  • 边际效应的定义:
    • 边际效应表示解释变量 x 的变化对结果变量 y 的影响。
    • 在线性回归中,边际效应是常数(即回归系数 $\beta$)。
    • 在逻辑回归中,边际效应取决于 x 的值,因为逻辑回归是非线性模型。
  • 逻辑回归的边际效应公式:
    • 对于连续变量:$\frac{\partial}{\partial x} p_i = \beta_x p_i (1 - p_i)$
    • 对于虚拟变量 $\Delta y = f(x = 1) - f(x = 0)$
  • 边际效应的计算方式:
    • **平均边际效应 (AME)**:计算每个观测值的边际效应,然后取平均值。
    • **均值处的边际效应 (MEM)**:将所有协变量设为其均值,计算边际效应。
    • **代表性值处的边际效应 (MER)**:选择特定的协变量值,计算边际效应。

使用 marginaleffects 包计算边际效应

  • marginaleffects:

8. 数据框的合并操作

  • 数据框的合并:
    • **bind_rows**:按行合并数据框(类似于 rbind)。
    • **bind_cols**:按列合并数据框(类似于 cbind),但需要确保行对齐。
  • 数据框的连接操作:
    • **inner_join**:只保留两个数据框中匹配的行。
    • **left_join**:保留左表的所有行,右表只保留匹配的行。
    • **right_join**:保留右表的所有行,左表只保留匹配的行。
    • **full_join**:保留两个数据框的所有行,未匹配的行用 NA 填充。
    • **semi_join**:只保留左表中与右表匹配的行,不添加右表的列。
    • **anti_join**:只保留左表中与右表不匹配的行。

9. 数据框合并的示例

  • left_join 示例:
    • 合并 superheroespublishers 数据框,保留所有超级英雄的信息,并添加出版商的成立年份。
    • 未匹配的出版商信息用 NA 填充。
  • inner_join 示例:
    • 只保留两个数据框中匹配的行。
  • full_join 示例:
    • 保留两个数据框的所有行,未匹配的行用 NA 填充。

总结

  • 数据可视化:
    • 可视化是数据分析的重要步骤,不能仅依赖统计量。
    • 不同类型的图表适用于不同的数据类型和分析目的。
  • 逻辑回归的边际效应:
    • 逻辑回归的边际效应是非线性的,取决于解释变量的值。
    • 可以使用 marginaleffects 包计算AME、MEM、MER等边际效应。
  • 数据框的合并:
    • 使用 dplyr 包中的 join 函数可以灵活地合并数据框,支持多种合并方式。

lecture5

主要介绍了多项逻辑回归模型(Multinomial Logistic Regression, MNLM)、离散选择模型、模型解释、预测概率以及如何处理R中的问题。

卡方分布 ($\chi^2$)

  • 卡方分布的定义:
    • 卡方分布是连续概率分布,常用于统计假设检验,特别是涉及分类数据和拟合优度检验。
    • 卡方分布是 $k$ 个独立标准正态变量的平方和:
      $V = Z_1^2 + Z_2^2 + \cdots + Z_k^2$
      $V \sim \chi_k^2$
  • 卡方分布的性质:
    • 非负 ($\chi^2 \geq 0$)。
    • 均值:$E[V] = k$。
    • 方差:$V[V] = 2k$。
    • 偏度:右偏,但随着 $k$ 的增加逐渐对称。

多项逻辑回归模型 (MNLM)

  • 多项逻辑回归:
    • 用于处理多个类别的分类问题。
    • 与二元逻辑回归类似,但扩展到多个类别。
    • 公式:
      $$
      \ln \left[ \frac{\Pr(A|x)}{\Pr(B|x)} \right] = \beta_{0,A|B} + \beta_{1,A|B} x
      $$
      $$
      \ln \left[ \frac{\Pr(B|x)}{\Pr(C|x)} \right] = \beta_{0,B|C} + \beta_{1,B|C} x
      $$
      $$
      \ln \left[ \frac{\Pr(A|x)}{\Pr(C|x)} \right] = \beta_{0,A|C} + \beta_{1,A|C} x
      $$
  • 参考类别的选择:
    • 为了识别模型,通常将某个类别设为参考类别(如 $\beta_1 = 0$)。
    • 参考类别的选择应便于解释。

多项逻辑回归的概率计算

  • 概率公式:
    • 对于参考类别 $\beta_1 = 0$,概率计算为:
      $$
      \Pr(y_i = 1 | x_i) = \frac{1}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}
      $$
      $$
      \Pr(y_i = m | x_i) = \frac{\exp(x_i \beta_m)}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}; \text{for } m > 1
      $$

多项逻辑回归的似然函数

  • 似然函数:
    • 多项逻辑回归模型通常使用最大似然估计法进行估计。
    • 似然函数为:
      $$
      L(\beta; X) = \prod_{i=1}^{N} \prod_{j=1}^{K} \left( \frac{e^{X_i \beta_j}}{\sum_{k=1}^{K} e^{X_i \beta_k}} \right)^{I(y = j)}
      $$
    • 其中 $I(y = j)$ 是指示函数,当 $y = j$ 时为1,否则为0。

多项逻辑回归与离散选择模型

  • 离散选择模型:
    • McFadden (1973) 证明了离散选择模型可以推导出多项逻辑回归模型。
    • 个体选择效用最大的选项,效用函数为:
      $$
      \mu_{im} = x_i \beta_m
      $$
    • 如果误差项 $\varepsilon$ 独立且服从类型I极值分布,则多项逻辑回归是离散选择模型的特例。

多项逻辑回归的系数解释

  • 系数解释:
    • 系数 $\beta_k$ 表示 $x$ 每增加一个单位,选择类别 $k$ 相对于参考类别的对数优势的变化。
    • 优势比:
      $$
      \frac{p_k(x’ + 1)}{p_K(x’ + 1)} = e^{\beta_k} \frac{p_k(x’)}{p_K(x’)}
      $$
    • 优势比可以解释为 $x$ 每增加一个单位,选择类别 $k$ 相对于参考类别的优势比的变化。

预测概率与模型评估

  • 预测概率:
    • 可以计算每个观测值的预测概率,并与实际结果进行比较,评估模型的准确性。
    • 公式:
      $$
      \Pr(y_i | X_i) = \frac{\exp(X_i \beta_j)}{\sum_{m=1}^J \exp(X_i \beta_m)}
      $$
  • 模型评估:
    • 使用预测概率评估模型的分类准确性。
    • 可以使用交叉验证或测试数据集来评估模型的泛化能力。

无关选项独立性假设 (IIA)

  • IIA假设:
    • IIA假设意味着添加或删除某个选项不会影响其他选项之间的相对优势。
    • 例如,红巴士问题(Red Bus Problem)展示了IIA假设的局限性。

欧洲社会调查 (ESS)

  • ESS概述:
    • ESS是一项大规模的欧洲人口调查,每两年进行一次。
    • 包含固定模块和轮换模块。
    • 数据收集方式从面对面访谈逐渐转向网络问卷。
    • 数据格式多样,支持Stata文件导入(使用 haven 包)。
  • 权重处理:
    • ESS数据包含设计权重(dweight)和后分层权重(pspweight),用于处理复杂抽样设计和非响应问题。
    • 在分析时,可以使用 surveysrvyr 包来处理权重和抽样设计。

总结

  • 多项逻辑回归:
    • 适用于多类别分类问题,通过最大似然估计法进行估计。
    • 参考类别的选择对模型解释至关重要。
  • 离散选择模型:
    • 多项逻辑回归是离散选择模型的特例,适用于个体选择行为分析。
  • 模型评估:
    • 使用预测概率和交叉验证评估模型的准确性。
  • ESS数据:
    • ESS数据包含复杂的抽样设计和权重,分析时需考虑这些因素。

sds1_chi2_contingency_tables

1. 卡方检验概述

  • 卡方检验:
    • 用于检验分类变量之间的独立性。
    • 适用于列联表(Contingency Table)数据,检验两个或多个分类变量是否相关。
    • 原假设 $ H_0 $:变量之间独立(无关联)。
    • 备择假设 $ H_1 $:变量之间相关(有关联)。

2. 卡方分布 ($ \chi^2 $)

  • 卡方分布的定义:
    • 卡方分布是 $ k $ 个独立标准正态变量的平方和:
      $$
      V = Z_1^2 + Z_2^2 + \cdots + Z_k^2
      $$
      $$
      V \sim \chi_k^2
      $$
    • 其中 $ k $ 是自由度(degrees of freedom)。
  • 卡方分布的性质:
    • 均值:$ E[V] = k $。
    • 方差:$ Var[V] = 2k $。
    • 偏度:右偏,但随着 $ k $ 的增加逐渐对称。

3. 列联表(Contingency Table)

  • 列联表的定义:
    • 列联表用于展示两个或多个分类变量之间的关系。
    • 行表示一个变量的类别,列表示另一个变量的类别,单元格中显示联合频数或百分比。
  • 示例:
    • 一个关于男性和女性教育水平的列联表:
      女性教育水平 男性教育水平 总计
      基础 高中 大学
      9 8 13
      16 20 9
      6 13 6
      总计 31 41

4. 期望频数的计算

  • 期望频数:
    • 在原假设 $ H_0 $ 下,变量独立时,每个单元格的期望频数为:
      $$
      e_{ij} = \frac{o_i \cdot o_j}{n}
      $$
    • 其中 $ o_i $ 是第 $ i $ 行的总和,$ o_j $ 是第 $ j $ 列的总和,$ n $ 是总样本量。
  • 示例:
    • 对于第2行第1列的期望频数:
      $$
      e_{21} = \frac{o_2 \cdot o_1}{n} = \frac{45 \times 31}{100} = 13.95
      $$

5. 卡方检验统计量的计算

  • 卡方检验统计量:
    • 卡方检验统计量用于衡量观测频数与期望频数之间的差异:
      $$
      \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}}
      $$
    • 其中 $ o_{ij} $ 是观测频数,$ e_{ij} $ 是期望频数。
  • 自由度:
    • 自由度为 $ (r-1)(c-1) $,其中 $ r $ 是行数,$ c $ 是列数。

6. 卡方检验的步骤

  1. 设定假设:
    • $ H_0 $:变量独立。
    • $ H_1 $:变量相关。
  2. 计算期望频数:
    • 使用公式 $ e_{ij} = \frac{o_i \cdot o_j}{n} $ 计算每个单元格的期望频数。
  3. 计算卡方统计量:
    • 使用公式 $ \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}} $ 计算卡方统计量。
  4. 确定自由度:
    • 自由度为 $ (r-1)(c-1) $。
  5. 计算p值:
    • 使用卡方分布表或R函数 pchisq 计算p值。
  6. 做出结论:
    • 如果 $ p < \alpha $(通常为0.05),拒绝 $ H_0 $,认为变量相关。
    • 否则,不拒绝 $ H_0 $,认为变量独立。

7. 卡方检验的示例

  • 示例1:教育水平的关联性检验:

    • 数据:男性和女性的教育水平列联表。
    • 计算卡方统计量:
      $$
      \chi^2 = \frac{(9 - 9.3)^2}{9.3} + \frac{(8 - 12.3)^2}{12.3} + \cdots + \frac{(6 - 7)^2}{7} = 6.768
      $$
    • 自由度:$ (3-1)(3-1) = 4 $。
    • p值:$ p = P(\chi^2_{df=4} \geq 6.768) = 0.1486 $。
    • 结论:$ p > 0.05 $,不拒绝 $ H_0 $,认为男性和女性的教育水平独立。
  • 示例2:性别与投票意向的关联性检验:

    • 数据:男性和女性的投票意向列联表。
    • 计算卡方统计量:
      $$
      \chi^2 = \frac{(23 - 28.16)^2}{28.16} + \frac{(21 - 15.84)^2}{15.84} + \frac{(41 - 35.84)^2}{35.84} + \frac{(15 - 20.16)^2}{20.16} = 4.69
      $$
    • 自由度:$ (2-1)(2-1) = 1 $。
    • p值:$ p = P(\chi^2_{df=1} \geq 4.69) \approx 0.03 $。
    • 结论:$ p < 0.05 $,拒绝 $ H_0 $,认为性别与投票意向相关。

8. 卡方检验的注意事项

  • 期望频数的要求:
    • 所有单元格的期望频数应大于5,否则卡方检验可能不适用。
    • 如果期望频数小于5,可以考虑使用Fisher精确检验。
  • 自由度:
    • 自由度反映了列联表中可以自由变化的单元格数量。
    • 自由度的计算公式为 $ (r-1)(c-1) $。

9. 总结

  • 卡方检验:
    • 用于检验分类变量之间的独立性。
    • 通过比较观测频数与期望频数,计算卡方统计量。
    • 根据卡方分布和自由度,计算p值并做出统计推断。
  • 列联表:
    • 用于展示两个或多个分类变量之间的关系。
    • 期望频数的计算基于变量独立的假设。
  • 应用场景:
    • 卡方检验广泛应用于社会科学、医学、市场研究等领域,用于分析分类变量之间的关联性。

lecture6 McFadden Conditional Logistic Regression Model

2. 课程目标

  • 动机:
    • 理解条件逻辑回归模型的动机和应用场景。
  • 区分决策者和替代项的特征:
    • 区分决策者层面的变量和替代项层面的变量。
  • 条件逻辑回归的概率函数:
    • 解释条件逻辑回归的概率函数。
  • 数据结构:
    • 描述估计条件逻辑回归模型所需的数据结构。
  • 系数解释:
    • 解释条件逻辑回归模型的系数估计。
  • 决策者层面变量的处理:
    • 解释为什么决策者层面的变量没有主效应。

3. 动机问题:市场研究

  • 问题背景:
    • 假设你在汽车公司工作,计划推出新车型。
    • 需要决定哪些特性(如燃料类型、燃油经济性、动力、空间等)对消费者最有吸引力。
    • 目标是了解消费者对这些特性的偏好,并预测潜在销量。
  • 解决方案:
    • 使用离散选择实验(Discrete Choice Experiments)来模拟消费者的选择行为。

4. 离散选择实验

  • 实验设计:
    • 向潜在消费者展示一组汽车选项(如Volvo Estate、Tesla Sedan、Dodge Truck等)。
    • 每个选项有不同的属性(如价格、燃料类型、动力等)。
    • 记录消费者的选择。
  • 问题:
    • 传统的多项逻辑回归模型无法处理替代项层面的变量(如价格、燃料类型等)。
    • 需要一种新的模型来捕捉这些替代项层面的特征对选择的影响。

5. McFadden 的条件逻辑回归模型

  • 模型背景:
    • 由诺贝尔经济学奖得主 Daniel McFadden 提出,用于预测经济选择。
    • 是多项逻辑回归模型的扩展,能够处理替代项层面的变量。
  • 模型公式:
    $$
    Pr(y_{ij} = 1) = \frac{e^{Z_{ij}\alpha_{ij}}}{\sum_{k=1}^{K_i} e^{Z_{ik}\alpha_{ik}}}
    $$
    • $ y_{ij} = 1 $ 表示决策者 $ i $ 选择了替代项 $ j $。
    • $ Z_{ij} $ 是替代项 $ j $ 的属性向量。
    • $ \alpha_{ij} $ 是替代项 $ j $ 的系数向量,可能随决策者 $ i $ 变化。
    • $ K_i $ 是决策者 $ i $ 的选择集中的替代项数量。

6. 数据结构

  • 长格式数据:
    • 数据通常以长格式存储,每个决策者的每个替代项占一行。
    • 示例数据结构:
      id college hsg2 coml5 alt choice type fuel cost
      1 0 0 0 1 1 van eng 4
      1 0 0 0 2 0 regcar eng 4
      1 0 0 0 3 0 van electric 6
      1 0 0 0 4 0 stwagon electric 6
      1 0 0 0 5 0 van gasoline 8
      1 0 0 0 6 0 truck gasoline 8

7. 模型估计与解释

  • 模型估计:
    • 使用最大似然估计法(Maximum Likelihood Estimation, MLE)估计模型参数。
  • 系数解释:
    • 系数 $ \alpha $ 表示替代项属性对选择概率的影响。
    • 解释为相对概率或优势(odds),而不是优势比(odds ratio)。
    • 例如,$ e^{\alpha} $ 表示替代项属性每增加一个单位,选择概率的相对变化。

8. 示例:加州替代燃料汽车选择

  • 数据来源:
    • 使用 Ecdat 包中的加州替代燃料汽车选择数据。
    • 数据包含消费者对不同类型汽车的选择,汽车属性包括燃料类型、车身类型、成本等。
  • 模型结果:
    • 模型估计了不同车身类型、燃料类型和成本对选择概率的影响。
    • 示例解释:
      • 选择SUV的概率是选择轿车的2.273倍($ e^{0.821} = 2.273 $)。
      • 选择电动车的概率是选择汽油车的1.166倍($ e^{0.154} = 1.166 $)。
      • 成本每增加10美分,选择概率降低7.5%($ e^{-0.078} = 0.925 $)。

9. 决策者层面的变量

  • 决策者层面的变量:
    • 决策者层面的变量(如收入、教育水平等)不能直接作为主效应进入模型。
    • 因为这些变量在同一个决策者的不同替代项之间是相同的,无法区分选择。
  • 交互项:
    • 决策者层面的变量可以通过与替代项层面的变量交互进入模型。
    • 例如,收入与价格的交互项可以捕捉高收入人群对价格的不敏感性。

10. 模型评估与预测

  • 模型评估:
    • 使用似然比检验(Likelihood Ratio Test)和信息准则(如AIC、BIC)评估模型拟合度。
  • 预测概率:
    • 可以计算每个决策者选择每个替代项的概率。
    • 也可以进行样本外预测,给定新的决策者和选择集。

11. 总结

  • 条件逻辑回归模型:
    • 适用于分析决策者从多个替代项中选择的行为。
    • 能够处理替代项层面的变量,捕捉替代项属性对选择的影响。
  • 数据结构:
    • 数据通常以长格式存储,每个决策者的每个替代项占一行。
  • 系数解释:
    • 系数表示替代项属性对选择概率的相对影响。
  • 决策者层面的变量:
    • 不能直接作为主效应进入模型,但可以通过交互项引入。

.

.