Discrete Choice Modeling

lecture1 离散选择模型简介

用于建模从一组互斥且穷尽的选项中选择的行为。

应用场景:
- 解释特定选择的影响因素。
- 预测结果，如分类观察。

线性回归与离散选择模型

线性回归 (OLS):
- 公式: $y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i$
- 假设: 有效性、代表性、线性、误差独立、误差方差相等。
线性概率模型 (LPM):
- 用于二元结果，但可能违反线性回归的假设，且预测值可能超出0-1范围。

逻辑回归

逻辑回归:
- 用于二元结果，预测值在0-1之间。
- 公式: $\ln \left( \frac{p}{1 - p} \right) = X \beta$
- 概率计算: $p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
优势比 (Odds Ratio):
- 解释系数: $\exp(\beta)$ 表示每增加一个单位 $x$，事件发生的优势比变化。

关键概念总结

伯努利分布: 二元随机变量的概率分布，$Y \sim Bernoulli(p)$。
二项分布: 多次独立伯努利试验的分布，$Y \sim Binomial(n, p) $。
期望与方差:
- 期望: $E[Y] = p$
- 方差: $Var[Y] = p(1 - p)$

lecture2

6. 不同結果的模型選擇

二元結果:
- 線性概率模型（LPM）、邏輯回歸（Logistic Regression）或Probit模型。
名義結果:
- 多項Logit（Multinomial Logit）、條件Logit（Conditional Logit）。
有序結果:
- 有序Logit（Ordinal Logit）或有序Probit（Ordinal Probit）。

7. 二元變量與伯努利分布

二元變量:
- 只能取兩個值，通常表示不同的類別或狀態，例如 $Y \in {0,1}$。
- 需要明確0和1代表的具體含義，例如0表示死亡，1表示生存。
伯努利分布:
- 如果 $Y \in {0,1}$，則 $Y$ 服從伯努利分布：
  - $Y \sim Bernoulli(p)$
  - $Pr(Y = 1) = p$
  - $Pr(Y = 0) = 1 - p$
- $p$ 是唯一的參數，表示 $Y = 1$ 的概率。

8. 伯努利分布的期望與方差

期望:
- 對於伯努利分布， $E[Y] = p$。
方差:
- 對於伯努利分布， $Var[Y] = p(1 - p)$。

9. 二項分布

二項分布:
- 描述了在 $n$ 次獨立伯努利試驗中，成功次數 $k$ 的概率分布。
- 公式：$Pr(Y = k|n, p) = \binom{n}{k}p^k(1 - p)^{n-k}$
- 伯努利分布是二項分布的特例，當 $n = 1$ 時。

10. 線性概率模型 (LPM)

LPM:
- 將OLS回歸模型應用於二元結果變量。
- 條件期望的參數化形式為：$E(Y_i|X_i) = \alpha + \beta_1 X_{i1} + \beta_2 X_{i2} + …$
- 由於 $Y \in {0,1}$，期望可以解釋為概率：$ P(Y_i = 1|X_i) = E(Y_i|X_i)$
LPM的問題:
- 違反線性回歸的假設。
- 可能給出不合理的預測值（超出0-1範圍）。
- 函數形式可能不符合實際情況。

11. 邏輯回歸 (Logistic Regression)

Logit函數:
- Logit函數定義為：$logit(x) = \ln \left( \frac{x}{1-x} \right)$
- 當 $x$是概率時 $x \in [0,1]$ ，Logit函數的極限為 $\lim_{x \to 1} = \infty, \quad \lim_{x \to 0} = -\infty$
邏輯回歸的公式:
- 邏輯回歸的公式為 $ \ln \left( \frac{Pr(y = 1|x)}{1 - Pr(y = 1|x)} \right) = X\beta$
- 概率計算為：$p = \frac{e^{X \beta}}{1 + e^{X \beta}}$
- 這樣，概率值始終在0到1之間。

12. 解釋邏輯回歸的係數

係數的解釋:
- $\beta$ 表示 $x$ 每增加一個單位，對數優勢（log odds）的變化。
- 例如， $\beta_{age} \approx -0.005$，表示每增加一歲，生存的對數優勢減少0.005。
優勢比 (Odds Ratio):
- 優勢比定義為 $\frac{p}{1 - p}$
- 邏輯回歸中，優勢比的變化可以通過 $e^{\beta}$ 來解釋。
- 例如，$\exp(\beta_{age}) \approx 0.995$，表示每增加一歲，生存的優勢比減少約0.5%。

lecture3

1. 课程概述

课程名称: Discrete Choice Modelling 2025
第三讲内容: 主要介绍了广义线性模型（GLM）、逻辑回归的估计方法、模型解释、预测概率以及模型评估。

5. 广义线性模型 (GLM)

广义线性模型的三个要素:
1. 线性预测器：例如 $\alpha + \beta_1 x_i$。
2. 概率分布：假设生成结果变量的概率分布。
3. 链接函数：将线性预测器与概率分布联系起来。
OLS与逻辑回归的比较:
- OLS:
  - 线性部分： $X_i \beta$
  - 链接函数：恒等函数（identity）
  - 分布族：正态分布
- 逻辑回归:
  - 线性部分： $X_i \beta$
  - 链接函数：logit函数
  - 分布族：二项分布

6. 逻辑回归的估计

为什么不能使用最小二乘法？
- 由于逻辑回归的结果是离散的，最小二乘法不再是估计参数的最佳方法。
- 逻辑回归使用最大似然估计法（Maximum Likelihood Estimation, MLE）来估计参数。
最大似然估计:
- 似然函数表示在给定参数值下观察到数据的概率。
- 通过最大化似然函数来找到最佳参数值。
- 由于似然值通常非常小，通常使用对数似然函数进行计算：$\ell_n(\theta) = \ln(L_n(\theta)) = \sum_{i}^{n} \ln(f(y_i;\theta))$
  $$

7. 逻辑回归的系数解释

系数的解释:
- $\beta$ 表示 x 每增加一个单位，对数优势（log odds）的变化。
- 例如， $\beta_{age} \approx -0.005$，表示每增加一岁，生存的对数优势减少0.005。
- $\beta_{male} \approx -2.5$，表示男性的生存对数优势比女性低2.5个单位。
优势比 (Odds Ratio):
- 优势比定义为：$\frac{p}{1 - p}$
- 通过指数化逻辑回归系数，可以得到优势比：$\frac{p’}{1 - p’} = e^{\beta_1} \frac{p}{1 - p}$
- 例如，$\exp(\beta_{age}) \approx 0.995$，表示每增加一岁，生存的优势比减少约0.5%。

8. 预测概率

预测概率的计算:
- 逻辑回归的预测概率公式为：$ p(x) = \frac{e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}{1 + e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2}}$
- 例如，计算一个20岁男性的生存概率：$\frac{\exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)}{1 + \exp(1.277273 - 0.005426 \times 20 - 2.465920 \times 1)} \approx 0.215
  $
预测概率的应用:
- 可以比较不同预测概率，或改变某个变量的值来观察概率的变化。
- 可以用于模型评估，例如计算正确分类的观察值数量。

9. 模型评估

标量拟合度量:
- 在线性回归中，使用 R^2 表示解释的方差比例。
- 对于分类结果模型，没有明显的 R^2 替代指标，但可以使用伪 R^2。
伪 R^2:
- McFadden’s R^2: $R_{MCF}^2 = 1 - \frac{\ln L(M_\beta)}{\ln L(M_\alpha)}$
- Cox and Snell’s R^2: $R_{C&S}^2 = 1 - \left[ \frac{L(M_\alpha)}{L(M_\beta)} \right]^{2/N}$
- Nagelkerke’s R^2: $R_N^2 = \frac{R_{C&S}^2}{\max R_{C&S}^2}$
信息准则:
- AIC (Akaike’s Information Criterion):
  $AIC = -2 \ln \hat{L}(M_\beta) + 2k$
- BIC (Bayesian Information Criterion):
  $BIC = -2 \ln \hat{L}(M_\beta) + \ln(N)k$

10. 似然比检验

似然比检验:
- 用于比较嵌套模型，检验某个变量是否显著。
- 公式：
  $G^2 = 2 \ln L(\text{Mod}{\text{unconstrained}}) - 2 \ln L(\text{Mod}{\text{constrained}})$
- 检验统计量服从 $\chi^2$ 分布，自由度等于两个模型参数数量的差异。

11. 边际效应

边际效应的类型:
- 平均边际效应 (AME)
- 均值处的边际效应 (MEM)
- 代表性值处的边际效应 (MER)

12. 总结

广义线性模型:
- 逻辑回归是广义线性模型的一种，适用于二元结果变量。
模型估计与解释:
- 使用最大似然估计法估计逻辑回归模型。
- 通过解释对数优势和优势比来理解变量的影响。
模型评估:
- 使用伪$R^2$、AIC、BIC 等指标评估模型拟合度。
- 使用似然比检验比较嵌套模型。

lecture4

主要介绍了数据可视化、逻辑回归的边际效应、数据框的合并操作等内容。

数据导入与可视化

数据导入:
- 使用Tidyverse包导入数据，支持多种数据格式：
  - 内置数据集：如 titanic、socviz、gapminder。
  - API导入：如 pxweb、WDI。
  - 分隔符文件：如CSV文件，使用 readr 包中的 read_csv、read_csv2 等函数。
  - SAS、SPSS、Stata文件：使用 haven 包导入。
  - Excel文件：使用 readxl 包导入。
  - XML和HTML文件：使用 xml2 包解析。
  - 网页抓取：使用 rvest 包。
  - 数据库：使用 dbplyr 包连接MySQL、Postgres等数据库。

6. 逻辑回归的边际效应

边际效应的定义:
- 边际效应表示解释变量 x 的变化对结果变量 y 的影响。
- 在线性回归中，边际效应是常数（即回归系数 $\beta$）。
- 在逻辑回归中，边际效应取决于 x 的值，因为逻辑回归是非线性模型。
逻辑回归的边际效应公式:
- 对于连续变量：$\frac{\partial}{\partial x} p_i = \beta_x p_i (1 - p_i)$
- 对于虚拟变量 $\Delta y = f(x = 1) - f(x = 0)$
边际效应的计算方式:
- **平均边际效应 (AME)**：计算每个观测值的边际效应，然后取平均值。
- **均值处的边际效应 (MEM)**：将所有协变量设为其均值，计算边际效应。
- **代表性值处的边际效应 (MER)**：选择特定的协变量值，计算边际效应。

使用 `marginaleffects` 包计算边际效应

marginaleffects 包:
- 用于计算逻辑回归模型的边际效应。
- 支持AME、MEM、MER等多种计算方式。
- 官网：https://marginaleffects.com/

8. 数据框的合并操作

数据框的合并:
- **bind_rows**：按行合并数据框（类似于 rbind）。
- **bind_cols**：按列合并数据框（类似于 cbind），但需要确保行对齐。
数据框的连接操作:
- **inner_join**：只保留两个数据框中匹配的行。
- **left_join**：保留左表的所有行，右表只保留匹配的行。
- **right_join**：保留右表的所有行，左表只保留匹配的行。
- **full_join**：保留两个数据框的所有行，未匹配的行用 NA 填充。
- **semi_join**：只保留左表中与右表匹配的行，不添加右表的列。
- **anti_join**：只保留左表中与右表不匹配的行。

9. 数据框合并的示例

left_join 示例:
- 合并 superheroes 和 publishers 数据框，保留所有超级英雄的信息，并添加出版商的成立年份。
- 未匹配的出版商信息用 NA 填充。
inner_join 示例:
- 只保留两个数据框中匹配的行。
full_join 示例:
- 保留两个数据框的所有行，未匹配的行用 NA 填充。

总结

数据可视化:
- 可视化是数据分析的重要步骤，不能仅依赖统计量。
- 不同类型的图表适用于不同的数据类型和分析目的。
逻辑回归的边际效应:
- 逻辑回归的边际效应是非线性的，取决于解释变量的值。
- 可以使用 marginaleffects 包计算AME、MEM、MER等边际效应。
数据框的合并:
- 使用 dplyr 包中的 join 函数可以灵活地合并数据框，支持多种合并方式。

lecture5

主要介绍了多项逻辑回归模型（Multinomial Logistic Regression, MNLM）、离散选择模型、模型解释、预测概率以及如何处理R中的问题。

卡方分布 ($\chi^2$)

卡方分布的定义:
- 卡方分布是连续概率分布，常用于统计假设检验，特别是涉及分类数据和拟合优度检验。
- 卡方分布是 $k$ 个独立标准正态变量的平方和：
  $V = Z_1^2 + Z_2^2 + \cdots + Z_k^2$
  $V \sim \chi_k^2$
卡方分布的性质:
- 非负 ($\chi^2 \geq 0$)。
- 均值：$E[V] = k$。
- 方差：$V[V] = 2k$。
- 偏度：右偏，但随着 $k$ 的增加逐渐对称。

多项逻辑回归模型 (MNLM)

多项逻辑回归:
- 用于处理多个类别的分类问题。
- 与二元逻辑回归类似，但扩展到多个类别。
- 公式：
  $$
  \ln \left[ \frac{\Pr(A|x)}{\Pr(B|x)} \right] = \beta_{0,A|B} + \beta_{1,A|B} x
  $$
  $$
  \ln \left[ \frac{\Pr(B|x)}{\Pr(C|x)} \right] = \beta_{0,B|C} + \beta_{1,B|C} x
  $$
  $$
  \ln \left[ \frac{\Pr(A|x)}{\Pr(C|x)} \right] = \beta_{0,A|C} + \beta_{1,A|C} x
  $$
参考类别的选择:
- 为了识别模型，通常将某个类别设为参考类别（如 $\beta_1 = 0$）。
- 参考类别的选择应便于解释。

多项逻辑回归的概率计算

概率公式:
- 对于参考类别 $\beta_1 = 0$，概率计算为：
  $$
  \Pr(y_i = 1 | x_i) = \frac{1}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}
  $$
  $$
  \Pr(y_i = m | x_i) = \frac{\exp(x_i \beta_m)}{1 + \sum_{j=2}^J \exp(x_i \beta_j)}; \text{for } m > 1
  $$

多项逻辑回归的似然函数

似然函数:
- 多项逻辑回归模型通常使用最大似然估计法进行估计。
- 似然函数为：
  $$
  L(\beta; X) = \prod_{i=1}^{N} \prod_{j=1}^{K} \left( \frac{e^{X_i \beta_j}}{\sum_{k=1}^{K} e^{X_i \beta_k}} \right)^{I(y = j)}
  $$
- 其中 $I(y = j)$ 是指示函数，当 $y = j$ 时为1，否则为0。

多项逻辑回归与离散选择模型

离散选择模型:
- McFadden (1973) 证明了离散选择模型可以推导出多项逻辑回归模型。
- 个体选择效用最大的选项，效用函数为：
  $$
  \mu_{im} = x_i \beta_m
  $$
- 如果误差项 $\varepsilon$ 独立且服从类型I极值分布，则多项逻辑回归是离散选择模型的特例。

多项逻辑回归的系数解释

系数解释:
- 系数 $\beta_k$ 表示 $x$ 每增加一个单位，选择类别 $k$ 相对于参考类别的对数优势的变化。
- 优势比：
  $$
  \frac{p_k(x’ + 1)}{p_K(x’ + 1)} = e^{\beta_k} \frac{p_k(x’)}{p_K(x’)}
  $$
- 优势比可以解释为 $x$ 每增加一个单位，选择类别 $k$ 相对于参考类别的优势比的变化。

预测概率与模型评估

预测概率:
- 可以计算每个观测值的预测概率，并与实际结果进行比较，评估模型的准确性。
- 公式：
  $$
  \Pr(y_i | X_i) = \frac{\exp(X_i \beta_j)}{\sum_{m=1}^J \exp(X_i \beta_m)}
  $$
模型评估:
- 使用预测概率评估模型的分类准确性。
- 可以使用交叉验证或测试数据集来评估模型的泛化能力。

无关选项独立性假设 (IIA)

IIA假设:
- IIA假设意味着添加或删除某个选项不会影响其他选项之间的相对优势。
- 例如，红巴士问题（Red Bus Problem）展示了IIA假设的局限性。

欧洲社会调查 (ESS)

ESS概述:
- ESS是一项大规模的欧洲人口调查，每两年进行一次。
- 包含固定模块和轮换模块。
- 数据收集方式从面对面访谈逐渐转向网络问卷。
- 数据格式多样，支持Stata文件导入（使用 haven 包）。
权重处理:
- ESS数据包含设计权重（dweight）和后分层权重（pspweight），用于处理复杂抽样设计和非响应问题。
- 在分析时，可以使用 survey 或 srvyr 包来处理权重和抽样设计。

总结

多项逻辑回归:
- 适用于多类别分类问题，通过最大似然估计法进行估计。
- 参考类别的选择对模型解释至关重要。
离散选择模型:
- 多项逻辑回归是离散选择模型的特例，适用于个体选择行为分析。
模型评估:
- 使用预测概率和交叉验证评估模型的准确性。
ESS数据:
- ESS数据包含复杂的抽样设计和权重，分析时需考虑这些因素。

sds1_chi2_contingency_tables

1. 卡方检验概述

卡方检验:
- 用于检验分类变量之间的独立性。
- 适用于列联表（Contingency Table）数据，检验两个或多个分类变量是否相关。
- 原假设 $ H_0 $：变量之间独立（无关联）。
- 备择假设 $ H_1 $：变量之间相关（有关联）。

2. 卡方分布 ($ \chi^2 $)

卡方分布的定义:
- 卡方分布是 $ k $ 个独立标准正态变量的平方和：
  $$
  V = Z_1^2 + Z_2^2 + \cdots + Z_k^2
  $$
  $$
  V \sim \chi_k^2
  $$
- 其中 $ k $ 是自由度（degrees of freedom）。
卡方分布的性质:
- 均值：$ E[V] = k $。
- 方差：$ Var[V] = 2k $。
- 偏度：右偏，但随着 $ k $ 的增加逐渐对称。

3. 列联表（Contingency Table）

列联表的定义:
- 列联表用于展示两个或多个分类变量之间的关系。
- 行表示一个变量的类别，列表示另一个变量的类别，单元格中显示联合频数或百分比。
示例:
- 一个关于男性和女性教育水平的列联表：
  
  女性教育水平男性教育水平总计
  
  基础高中大学
  
  9 8 13
  
  16 20 9
  
  6 13 6
  
  总计 31 41

女性教育水平	男性教育水平	总计
基础	高中	大学
9	8	13
16	20	9
6	13	6
总计	31	41

4. 期望频数的计算

期望频数:
- 在原假设 $ H_0 $ 下，变量独立时，每个单元格的期望频数为：
  $$
  e_{ij} = \frac{o_i \cdot o_j}{n}
  $$
- 其中 $ o_i $ 是第 $ i $ 行的总和，$ o_j $ 是第 $ j $ 列的总和，$ n $ 是总样本量。
示例:
- 对于第2行第1列的期望频数：
  $$
  e_{21} = \frac{o_2 \cdot o_1}{n} = \frac{45 \times 31}{100} = 13.95
  $$

5. 卡方检验统计量的计算

卡方检验统计量:
- 卡方检验统计量用于衡量观测频数与期望频数之间的差异：
  $$
  \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}}
  $$
- 其中 $ o_{ij} $ 是观测频数，$ e_{ij} $ 是期望频数。
自由度:
- 自由度为 $ (r-1)(c-1) $，其中 $ r $ 是行数，$ c $ 是列数。

6. 卡方检验的步骤

设定假设:
- $ H_0 $：变量独立。
- $ H_1 $：变量相关。
计算期望频数:
- 使用公式 $ e_{ij} = \frac{o_i \cdot o_j}{n} $ 计算每个单元格的期望频数。
计算卡方统计量:
- 使用公式 $ \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(o_{ij} - e_{ij})^2}{e_{ij}} $ 计算卡方统计量。
确定自由度:
- 自由度为 $ (r-1)(c-1) $。
计算p值:
- 使用卡方分布表或R函数 pchisq 计算p值。
做出结论:
- 如果 $ p < \alpha $（通常为0.05），拒绝 $ H_0 $，认为变量相关。
- 否则，不拒绝 $ H_0 $，认为变量独立。

7. 卡方检验的示例

示例1：教育水平的关联性检验:
- 数据：男性和女性的教育水平列联表。
- 计算卡方统计量：
  $$
  \chi^2 = \frac{(9 - 9.3)^2}{9.3} + \frac{(8 - 12.3)^2}{12.3} + \cdots + \frac{(6 - 7)^2}{7} = 6.768
  $$
- 自由度：$ (3-1)(3-1) = 4 $。
- p值：$ p = P(\chi^2_{df=4} \geq 6.768) = 0.1486 $。
- 结论：$ p > 0.05 $，不拒绝 $ H_0 $，认为男性和女性的教育水平独立。
示例2：性别与投票意向的关联性检验:
- 数据：男性和女性的投票意向列联表。
- 计算卡方统计量：
  $$
  \chi^2 = \frac{(23 - 28.16)^2}{28.16} + \frac{(21 - 15.84)^2}{15.84} + \frac{(41 - 35.84)^2}{35.84} + \frac{(15 - 20.16)^2}{20.16} = 4.69
  $$
- 自由度：$ (2-1)(2-1) = 1 $。
- p值：$ p = P(\chi^2_{df=1} \geq 4.69) \approx 0.03 $。
- 结论：$ p < 0.05 $，拒绝 $ H_0 $，认为性别与投票意向相关。

8. 卡方检验的注意事项

期望频数的要求:
- 所有单元格的期望频数应大于5，否则卡方检验可能不适用。
- 如果期望频数小于5，可以考虑使用Fisher精确检验。
自由度:
- 自由度反映了列联表中可以自由变化的单元格数量。
- 自由度的计算公式为 $ (r-1)(c-1) $。

9. 总结

卡方检验:
- 用于检验分类变量之间的独立性。
- 通过比较观测频数与期望频数，计算卡方统计量。
- 根据卡方分布和自由度，计算p值并做出统计推断。
列联表:
- 用于展示两个或多个分类变量之间的关系。
- 期望频数的计算基于变量独立的假设。
应用场景:
- 卡方检验广泛应用于社会科学、医学、市场研究等领域，用于分析分类变量之间的关联性。

lecture6 McFadden Conditional Logistic Regression Model

2. 课程目标

动机:
- 理解条件逻辑回归模型的动机和应用场景。
区分决策者和替代项的特征:
- 区分决策者层面的变量和替代项层面的变量。
条件逻辑回归的概率函数:
- 解释条件逻辑回归的概率函数。
数据结构:
- 描述估计条件逻辑回归模型所需的数据结构。
系数解释:
- 解释条件逻辑回归模型的系数估计。
决策者层面变量的处理:
- 解释为什么决策者层面的变量没有主效应。

3. 动机问题：市场研究

问题背景:
- 假设你在汽车公司工作，计划推出新车型。
- 需要决定哪些特性（如燃料类型、燃油经济性、动力、空间等）对消费者最有吸引力。
- 目标是了解消费者对这些特性的偏好，并预测潜在销量。
解决方案:
- 使用离散选择实验（Discrete Choice Experiments）来模拟消费者的选择行为。

4. 离散选择实验

实验设计:
- 向潜在消费者展示一组汽车选项（如Volvo Estate、Tesla Sedan、Dodge Truck等）。
- 每个选项有不同的属性（如价格、燃料类型、动力等）。
- 记录消费者的选择。
问题:
- 传统的多项逻辑回归模型无法处理替代项层面的变量（如价格、燃料类型等）。
- 需要一种新的模型来捕捉这些替代项层面的特征对选择的影响。

5. McFadden 的条件逻辑回归模型

模型背景:
- 由诺贝尔经济学奖得主 Daniel McFadden 提出，用于预测经济选择。
- 是多项逻辑回归模型的扩展，能够处理替代项层面的变量。
模型公式:
$$
Pr(y_{ij} = 1) = \frac{e^{Z_{ij}\alpha_{ij}}}{\sum_{k=1}^{K_i} e^{Z_{ik}\alpha_{ik}}}
$$
- $ y_{ij} = 1 $ 表示决策者 $ i $ 选择了替代项 $ j $。
- $ Z_{ij} $ 是替代项 $ j $ 的属性向量。
- $ \alpha_{ij} $ 是替代项 $ j $ 的系数向量，可能随决策者 $ i $ 变化。
- $ K_i $ 是决策者 $ i $ 的选择集中的替代项数量。

6. 数据结构

长格式数据:

数据通常以长格式存储，每个决策者的每个替代项占一行。

示例数据结构：

id	alt	choice	type	fuel	cost
1	1	1	van	eng	4
1	2	0	regcar	eng	4
1	3	0	van	electric	6
1	4	0	stwagon	electric	6
1	5	0	van	gasoline	8
1	6	0	truck	gasoline	8

7. 模型估计与解释

模型估计:
- 使用最大似然估计法（Maximum Likelihood Estimation, MLE）估计模型参数。
系数解释:
- 系数 $ \alpha $ 表示替代项属性对选择概率的影响。
- 解释为相对概率或优势（odds），而不是优势比（odds ratio）。
- 例如，$ e^{\alpha} $ 表示替代项属性每增加一个单位，选择概率的相对变化。

8. 示例：加州替代燃料汽车选择

数据来源:
- 使用 Ecdat 包中的加州替代燃料汽车选择数据。
- 数据包含消费者对不同类型汽车的选择，汽车属性包括燃料类型、车身类型、成本等。
模型结果:
- 模型估计了不同车身类型、燃料类型和成本对选择概率的影响。
- 示例解释：
  - 选择SUV的概率是选择轿车的2.273倍（$ e^{0.821} = 2.273 $）。
  - 选择电动车的概率是选择汽油车的1.166倍（$ e^{0.154} = 1.166 $）。
  - 成本每增加10美分，选择概率降低7.5%（$ e^{-0.078} = 0.925 $）。

9. 决策者层面的变量

决策者层面的变量:
- 决策者层面的变量（如收入、教育水平等）不能直接作为主效应进入模型。
- 因为这些变量在同一个决策者的不同替代项之间是相同的，无法区分选择。
交互项:
- 决策者层面的变量可以通过与替代项层面的变量交互进入模型。
- 例如，收入与价格的交互项可以捕捉高收入人群对价格的不敏感性。

10. 模型评估与预测

模型评估:
- 使用似然比检验（Likelihood Ratio Test）和信息准则（如AIC、BIC）评估模型拟合度。
预测概率:
- 可以计算每个决策者选择每个替代项的概率。
- 也可以进行样本外预测，给定新的决策者和选择集。

11. 总结

条件逻辑回归模型:
- 适用于分析决策者从多个替代项中选择的行为。
- 能够处理替代项层面的变量，捕捉替代项属性对选择的影响。
数据结构:
- 数据通常以长格式存储，每个决策者的每个替代项占一行。
系数解释:
- 系数表示替代项属性对选择概率的相对影响。
决策者层面的变量:
- 不能直接作为主效应进入模型，但可以通过交互项引入。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。

Discrete Choice Modeling

lecture1 离散选择模型简介

线性回归与离散选择模型

逻辑回归

关键概念总结

lecture2

6. 不同結果的模型選擇

7. 二元變量與伯努利分布

8. 伯努利分布的期望與方差

9. 二項分布

10. 線性概率模型 (LPM)

11. 邏輯回歸 (Logistic Regression)

12. 解釋邏輯回歸的係數

lecture3

1. 课程概述

5. 广义线性模型 (GLM)

6. 逻辑回归的估计

7. 逻辑回归的系数解释

8. 预测概率

9. 模型评估

10. 似然比检验

11. 边际效应

12. 总结

lecture4

数据导入与可视化

6. 逻辑回归的边际效应

使用 marginaleffects 包计算边际效应

8. 数据框的合并操作

9. 数据框合并的示例

总结

lecture5

卡方分布 ($\chi^2$)

多项逻辑回归模型 (MNLM)

多项逻辑回归的概率计算

多项逻辑回归的似然函数

多项逻辑回归与离散选择模型

多项逻辑回归的系数解释

预测概率与模型评估

无关选项独立性假设 (IIA)

欧洲社会调查 (ESS)

总结

sds1_chi2_contingency_tables

1. 卡方检验概述

2. 卡方分布 ($ \chi^2 $)

3. 列联表（Contingency Table）

4. 期望频数的计算

5. 卡方检验统计量的计算

6. 卡方检验的步骤

7. 卡方检验的示例

8. 卡方检验的注意事项

9. 总结

lecture6 McFadden Conditional Logistic Regression Model

2. 课程目标

3. 动机问题：市场研究

4. 离散选择实验

5. McFadden 的条件逻辑回归模型

6. 数据结构

7. 模型估计与解释

8. 示例：加州替代燃料汽车选择

9. 决策者层面的变量

10. 模型评估与预测

11. 总结

使用 `marginaleffects` 包计算边际效应