Social Network Analysis

社会网络分析课程笔记 - 第1周

1. 课程概述

课程目标: 介绍社会网络分析的理论和方法，帮助学生理解网络思维，掌握基本的社会网络概念，并能够使用R语言处理、描述和可视化网络数据。
学习目标:
- 理解网络思维和基本的社会网络概念。
- 能够从社会网络嵌入的角度回答社会科学问题。
- 使用R语言存储、读取、描述和可视化网络数据。
- 检测网络中的社区和角色模式。
- 运行指数随机图模型（ERGMs）分析横截面网络数据。
- 分析纵向社会网络数据，包括使用随机行动者导向模型（SAOMs）分离选择和影响。
- 理解并解释这些统计技术的结果，同时注意模型的局限性和拟合优度。

2. 课程结构

课程安排: 共10周，每周有不同的主题和活动，包括讲座、实验室和文献研讨会。
- 第1周: 网络介绍，为什么研究社会网络。
- 第2周: 社会网络的描述和可视化。
- 第3周: 社区检测和群体分析。
- 第4周: 小世界网络和传染现象。
- 第5周: 指数随机图模型（ERGMs）。
- 第6周: 多重网络和负向关系。
- 第7周: 随机行动者导向模型（SAOMs）。
- 第8周: 块模型分析。
- 第9-10周: 最终项目的在线咨询。

4. 社会网络分析的核心概念

网络研究在社会科学中的应用:
- 传统调查数据关注个体的属性（如年龄、收入、教育等），而社会网络分析关注个体之间的关系（如友谊、合作等）。
- 社会网络分析适用于研究社会系统中个体、属性和行为的相互依赖性。
社会网络的层次:
- 网络层次: 研究整个社会系统的功能。
- 行动者层次: 研究个体在社会系统中的行为。
- 二元层次: 研究个体之间的关系依赖性。
社会网络的类型:
- 正式网络 vs. 非正式网络: 正式网络是设计的、结构化的（如组织架构），非正式网络是自然形成的（如社区关系）。
- 社会网络分析的焦点: 通常关注非正式、自然形成的网络现象。

5. 社会网络分析的历史

Jacob L. Moreno: 1932年首次使用社会矩阵和社会图来展示儿童之间的喜欢和不喜欢关系。
John Barnes: 1954年提出了“社会网络”的概念，认为社会关系是由点和线组成的。
1970年代: 社会学家开始应用图论、聚类和空间建模方法来研究小群体结构和社区网络。
1990年代末至2000年代初: 网络科学的兴起，依赖于图论、小世界网络和无标度网络的研究。

6. 社会网络分析 vs. 网络科学

社会网络分析:
- 根植于行为科学、地理学和社会学。
- 通常是假设驱动的。
- 关注小型到中型网络（<100个节点）。
- 强调社会科学的背景和问题。
网络科学:
- 根植于物理学和数学。
- 通常是探索性的。
- 关注大型网络（>100个节点）。
- 强调网络结构，跨学科应用。

7. 社会网络分析的核心理论贡献

社会资本:
- James Coleman: 社会资本作为群体凝聚和封闭的产物。
- Mark Granovetter: 弱关系的力量（Weak Ties）。
- Ronald Burt: 结构洞（Structural Holes）。
- Robert Putnam: 公民参与和成员关系。
嵌入性:
- Mark Granovetter: 经济行为嵌入社会结构中。
- Brian Uzzi: 嵌入性与组织绩效的关系。
网络同质性:
- 社会网络中的同质性选择和社会影响导致网络的隔离。

8. 社会网络分析的例子

R&D团队的沟通网络: 研究团队成员之间的沟通模式。
无家可归妇女的自我网络: 研究个体在社会网络中的强关系。
库拉环: 研究太平洋岛屿之间的礼物交换网络。
俄罗斯贸易路线: 研究12-13世纪的贸易网络。
土耳其内部迁移: 使用网络分析研究人口迁移模式。

9. 网络数据的数学表示

网络的定义:
- 一个网络（或图）可以表示为 $ G = (V, E) $，其中：
  - $ V = {1, 2, …, n} $ 是节点的集合（也称为顶点或行动者）。
  - $ E \subseteq {<i,j> | i,j \in V} $ 是边的集合（也称为关系或连接）。
- 在社会网络分析中，节点通常表示个体、组织、国家等，边表示它们之间的关系（如友谊、合作等）。
邻接矩阵:
- 网络可以用邻接矩阵 $ X $ 表示，其中：
  - $ x_{ij} = 1 $ 如果节点 $ i $ 与节点 $ j $ 之间有边（即 $ <i,j> \in E $）。
  - $ x_{ij} = 0 $ 如果节点 $ i $ 与节点 $ j $ 之间没有边。
- 对于无向网络，邻接矩阵是对称的，即 $ x_{ij} = x_{ji} $。
- 对于有向网络，邻接矩阵不一定对称。
节点列表和边列表:
- 节点列表: 列出每个节点的邻居。
  - 例如：
    1
    2
    3
    4
    5
    a1: a3
    a2:
    a3: a2, a4, a5
    a4: a5
    a5: a4
- 边列表: 列出所有边及其权重（如果有）。
  - 例如：
    1
    2
    3
    4
    5
    6
    a1 a3 1
    a3 a2 1
    a3 a4 1
    a3 a5 1
    a4 a5 1
    a5 a4 1

10. 网络的基本指标

网络密度:
- 密度表示网络中实际存在的关系占所有可能关系的比例。
- 公式：
  $$
  \text{density} = \frac{2M + A}{n(n-1)}
  $$
  其中：
  - $ M $ 是双向关系的数量。
  - $ A $ 是单向关系的数量。
  - $ n $ 是节点的数量。
互惠性:
- 互惠性表示网络中双向关系的比例。
- 公式：
  $$
  \text{reciprocity} = \frac{2M}{2M + A}
  $$
  其中：
  - $ M $ 是双向关系的数量。
  - $ A $ 是单向关系的数量。
传递性:
- 传递性表示网络中三元关系的传递性。
- 公式：
  $$
  \text{transitivity} = \frac{\sum_{i \neq j, k \neq i, k \neq j} x_{ik} x_{kj} x_{ij}}{\sum_{i \neq j, k \neq i, k \neq j} x_{ik} x_{kj}}
  $$
  其中：
  - $ x_{ij} $ 表示节点 $ i $ 和 $ j $ 之间的关系。

11. 矩阵运算与网络分析

邻接矩阵的幂:
- 邻接矩阵的幂 $ X^k $ 表示节点之间通过 $ k $ 步路径的连接情况。
- 例如，$ X^2 $ 表示节点之间通过两步路径的连接情况。
- 公式：
  $$
  X^2 = X \times X
  $$
  其中：
  - $ X^2_{ij} $ 表示节点 $ i $ 和 $ j $ 之间通过两步路径的连接数量。
最短路径（Geodesic Distance）:
- 最短路径是指两个节点之间最短的连接路径的长度。
- 通过邻接矩阵的幂运算可以计算最短路径。
- 例如，如果 $ X^k_{ij} > 0 $ 且 $ X^{k-1}_{ij} = 0 $，则节点 $ i $ 和 $ j $ 之间的最短路径长度为 $ k $。

12. 中心性度量

度中心性（Degree Centrality）:
- 度中心性表示一个节点的连接数量。
- 对于有向网络，分为入度（in-degree）和出度（out-degree）。
- 公式：
  $$
  \text{degree centrality}(i) = \sum_{j} x_{ij}
  $$
特征向量中心性（Eigenvector Centrality）:
- 特征向量中心性表示一个节点的中心性与其邻居的中心性成正比。
- 公式：
  $$
  \mathbf{v} = \lambda^{-1} X \mathbf{v}
  $$
  其中：
  - $ \mathbf{v} $ 是特征向量。
  - $ \lambda $ 是特征值。
介数中心性（Betweenness Centrality）:
- 介数中心性表示一个节点在所有最短路径中出现的频率。
- 公式：
  $$
  \text{betweenness centrality}(i) = \sum_{j \neq k \neq i} \frac{\sigma_{jk}(i)}{\sigma_{jk}}
  $$
  其中：
  - $ \sigma_{jk} $ 是节点 $ j $ 和 $ k $ 之间的最短路径数量。
  - $ \sigma_{jk}(i) $ 是节点 $ j $ 和 $ k $ 之间经过节点 $ i $ 的最短路径数量。

13. 网络的其他度量

聚类系数（Clustering Coefficient）:
- 聚类系数表示一个节点的邻居之间相互连接的程度。
- 公式：
  $$
  \text{clustering coefficient}(i) = \frac{2 \times \text{number of triangles connected to } i}{\text{degree}(i) \times (\text{degree}(i) - 1)}
  $$
网络直径（Diameter）:
- 网络直径是网络中任意两个节点之间最长的最短路径。

14. 二模网络（Bipartite Networks）

二模网络的定义:
- 二模网络由两组不同的节点组成，边只存在于两组节点之间。
- 例如，人和事件之间的关系。
二模网络的投影:
- 二模网络可以投影为两个一模网络：
  - 节点到节点的网络: 表示两个节点共享了多少个事件。
  - 事件到事件的网络: 表示两个事件共享了多少个节点。
- 投影公式：
  $$
  P = X \cdot X^T
  $$
  其中：
  - $ X $ 是二模网络的邻接矩阵。
  - $ P $ 是投影后的一模网络。

15. 网络数据的转换

二值化（Dichotomization）:
- 将加权网络转换为二值网络。
- 公式：
  $$
  b_{ij} =
  \begin{cases}
  1 & \text{if } x_{ij} \geq \text{cutoff} \
  0 & \text{if } x_{ij} < \text{cutoff}
  \end{cases}
  $$
  其中：
  - $ x_{ij} $ 是原始网络的权重。
  - $ \text{cutoff} $ 是阈值。
对称化（Symmetrization）:
- 将有向网络转换为无向网络。
- 公式：
  $$
  b_{ij} = \max(x_{ij}, x_{ji})
  $$

16. 总结

社会网络分析涉及大量的数学和统计方法，特别是图论和矩阵运算。
网络数据的表示和分析依赖于邻接矩阵、节点列表和边列表等数据结构。
网络指标如密度、中心性、传递性等帮助我们理解网络的结构和功能。
二模网络和网络数据的转换（如二值化和对称化）是处理复杂网络数据的重要工具。

好的！以下是基于《Social Network Analysis》第二课课件的详细笔记，涵盖了所有内容，包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织，确保全面且详细，并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析课程笔记 - 第2周

1. 网络层次的基本指标

最短路径分布（Geodesic Distributions）:
- 对于每个网络，可以计算每个距离出现的频率，生成最短路径的分布。
- 如果节点位于不同的组件中，则它们之间的距离为无穷大。
- 公式：
  $$
  \text{Geodesic Distance}(i, j) = \text{最短路径的长度}
  $$
- 示例：在英格兰/威尔士的学校友谊网络中，最短路径分布随时间变化。
度分布（Degree Distributions）:
- 度分布表示网络中每个节点的出度或入度的频率分布。
- 公式：
  $$
  \text{Degree Distribution}(k) = \text{具有度 } k \text{ 的节点数量}
  $$
- 示例：苏格兰学校友谊网络中的出度和入度分布。
无标度网络（Scale-Free Networks）:
- 度分布通常在“对数-对数”尺度上绘制。
- 如果分布在对数-对数尺度上呈线性，则网络被称为“无标度网络”。
- 公式：
  $$
  P(k) \sim k^{-\gamma}
  $$
  其中：
  - $ P(k) $ 是度为 $ k $ 的节点的概率。
  - $ \gamma $ 是幂律指数。

2. 行动者层次的中心性度量

中心性的基本概念:
- 中心性度量用于衡量节点在网络中的结构优势。
- 当节点在中心性上差异较大时，网络被称为“集中化”网络。
度中心性（Degree Centrality）:
- 度中心性表示一个节点的连接数量。
- 公式：
  $$
  \text{Degree Centrality}(i) = \sum_{j} x_{ij}
  $$
  其中：
  - $ x_{ij} $ 表示节点 $ i $ 和 $ j $ 之间的连接。
特征向量中心性（Eigenvector Centrality）:
- 特征向量中心性表示一个节点的中心性与其邻居的中心性成正比。
- 公式：
  $$
  \mathbf{v} = \lambda^{-1} X \mathbf{v}
  $$
  其中：
  - $ \mathbf{v} $ 是特征向量。
  - $ \lambda $ 是特征值。
介数中心性（Betweenness Centrality）:
- 介数中心性表示一个节点在所有最短路径中出现的频率。
- 公式：
  $$
  \text{Betweenness Centrality}(i) = \sum_{j \neq k \neq i} \frac{\sigma_{jk}(i)}{\sigma_{jk}}
  $$
  其中：
  - $ \sigma_{jk} $ 是节点 $ j $ 和 $ k $ 之间的最短路径数量。
  - $ \sigma_{jk}(i) $ 是节点 $ j $ 和 $ k $ 之间经过节点 $ i $ 的最短路径数量。

3. 网络的其他度量

聚类系数（Clustering Coefficient）:
- 聚类系数表示一个节点的邻居之间相互连接的程度。
- 公式：
  $$
  \text{Clustering Coefficient}(i) = \frac{2 \times \text{number of triangles connected to } i}{\text{degree}(i) \times (\text{degree}(i) - 1)}
  $$
网络直径（Diameter）:
- 网络直径是网络中任意两个节点之间最长的最短路径。

4. 网络数据的处理与转换

二值化（Dichotomization）:
- 将加权网络转换为二值网络。
- 公式：
  $$
  b_{ij} =
  \begin{cases}
  1 & \text{if } x_{ij} \geq \text{cutoff} \
  0 & \text{if } x_{ij} < \text{cutoff}
  \end{cases}
  $$
  其中：
  - $ x_{ij} $ 是原始网络的权重。
  - $ \text{cutoff} $ 是阈值。
对称化（Symmetrization）:
- 将有向网络转换为无向网络。
- 公式：
  $$
  b_{ij} = \max(x_{ij}, x_{ji})
  $$

5. 二模网络（Bipartite Networks）

二模网络的定义:
- 二模网络由两组不同的节点组成，边只存在于两组节点之间。
- 例如，人和事件之间的关系。
二模网络的投影:
- 二模网络可以投影为两个一模网络：
  - 节点到节点的网络: 表示两个节点共享了多少个事件。
  - 事件到事件的网络: 表示两个事件共享了多少个节点。
- 投影公式：
  $$
  P = X \cdot X^T
  $$
  其中：
  - $ X $ 是二模网络的邻接矩阵。
  - $ P $ 是投影后的一模网络。

6. 网络可视化

可视化原则:
- 最小化边交叉: 减少边的交叉，使图形更清晰。
- 最小化边长度方差: 使边的长度尽可能均匀。
- 避免节点靠近非相邻边: 确保节点不会靠近与其不相连的边。
布局算法:
- 力导向布局（Force-Directed Layout）:
  - 使用物理模拟（如弹簧模型）来绘制图形。
  - 常见的算法包括 Kamada-Kawai 和 Fruchterman-Reingold。
- 圆形布局（Circle Layout）:
  - 适用于小世界网络和接近规则的网络。
- 树形布局（Tree Layout）:
  - 适用于层次结构或食物链网络。
大型网络的可视化:
- 大型网络无法完全显示所有节点和边，因此需要压缩信息。
- 常见的策略包括：
  - 仅显示网络的一个子集。
  - 突出显示关键节点属性。
  - 使用径向布局（Radial Layout）来分层显示网络。

7. 纵向网络（Longitudinal Networks）

纵向网络的特点:
- 纵向网络涉及多个时间点的网络数据。
- 网络的结构和组成可能随时间变化。
- 可视化的目标是比较不同时间点的网络或展示网络的演化。
可视化策略:
- 固定节点位置: 为了便于比较，可以固定节点的位置。
- 联合优化: 使用联合优化算法来平衡不同时间点的布局。

8. 总结

社会网络分析涉及大量的数学和统计方法，特别是图论和矩阵运算。
网络指标如密度、中心性、传递性等帮助我们理解网络的结构和功能。
网络数据的转换（如二值化和对称化）是处理复杂网络数据的重要工具。
网络可视化是理解和展示网络结构的关键步骤，特别是在处理大型和纵向网络时。

以下是基于《Social Network Analysis》第三课课件的详细笔记，涵盖了所有内容，包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织，确保全面且详细，并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析课程笔记 - 第3周

1. 社区检测（Community Detection）

社区的定义:
- 社区是指网络中一组紧密连接的节点，组内节点之间的连接比组外节点之间的连接更紧密。
- 社区可以是外生的（如团队成员的划分）或内生的（通过网络结构检测）。
社区检测的意义:
- 中观层次（Meso-level）: 社区介于微观（个体）和宏观（整体网络）之间，有助于理解社会规范、领导力、群体冲突等。
- 应用场景: 市场营销、犯罪群体识别、欺诈检测、推荐系统等。

2. 社区检测的方法

基于凝聚子群（Cohesive Subgroups）的方法:
- 团（Cliques）:
  - 团是一个完全连接的子图，即团内的每对节点之间都有边连接。
  - 团是极大的，意味着不能通过添加更多节点来扩展团。
  - 公式：
    $$
    \text{Clique}(S) = \text{Complete}(S) \land \text{Maximal}(S)
    $$
    其中：
    - $ S $ 是节点子集。
    - $ \text{Complete}(S) $ 表示 $ S $ 中的每对节点都有边连接。
    - $ \text{Maximal}(S) $ 表示 $ S $ 不能通过添加更多节点来扩展。
- n-团（n-Cliques）:
  - n-团是指子集中的每对节点之间的路径长度不超过 $ n $。
  - 公式：
    $$
    \text{n-Clique}(S) = \text{Maximal}(S) \land \text{Distance}(i, j) \leq n, \forall i, j \in S
    $$
    其中：
    - $ \text{Distance}(i, j) $ 是节点 $ i $ 和 $ j $ 之间的最短路径长度。
- k-核（k-Core）:
  - k-核是指子集中的每个节点至少与子集中的 $ k $ 个其他节点相连。
  - 公式：
    $$
    \text{k-Core}(S) = \text{Maximal}(S) \land \text{Degree}(i) \geq k, \forall i \in S
    $$
    其中：
    - $ \text{Degree}(i) $ 是节点 $ i $ 在子集中的度数。
层次聚类（Hierarchical Clustering）:
- 层次聚类是一种自底向上的聚类方法，逐步合并最相似的簇。
- 公式：
  $$
  \text{Similarity}(C_1, C_2) = \text{Measure}(C_1, C_2)
  $$
  其中：
  - $ C_1 $ 和 $ C_2 $ 是两个簇。
  - $ \text{Measure} $ 是相似性度量（如距离、相关性等）。

3. 模块度（Modularity）

模块度的定义:
- 模块度用于衡量网络划分为模块的强度，表示组内边的比例减去随机分布下的期望比例。
- 公式：
  $$
  Q = \frac{1}{2m} \sum_{ij} \left[ A_{ij} - \frac{k_i k_j}{2m} \right] \delta (c_i, c_j)
  $$
  其中：
  - $ m $ 是网络中的边数。
  - $ A_{ij} $ 是邻接矩阵的元素，表示节点 $ i $ 和 $ j $ 之间是否有边。
  - $ k_i $ 和 $ k_j $ 是节点 $ i $ 和 $ j $ 的度数。
  - $ \delta(c_i, c_j) $ 是 Kronecker delta 函数，当 $ c_i = c_j $ 时为 1，否则为 0。
模块度的解释:
- $ Q $ 的取值范围为 $[-1, 1]$。
- $ Q > 0 $ 表示组内边的比例高于随机分布下的期望比例。
- $ Q = 0 $ 表示组内边的比例与随机分布下的期望比例相同。

4. 社区检测算法

Girvan-Newman 算法:
- 基于边介数（Edge Betweenness）的层次聚类方法。
- 步骤：
  1. 计算每条边的介数。
  2. 移除介数最高的边。
  3. 重复步骤 1 和 2，直到所有边被移除。
- 结果生成一个树状图（Dendrogram）。
Louvain 方法:
- 一种贪婪算法，通过最大化模块度来检测社区。
- 步骤：
  1. 将节点分配到局部社区，以最大化模块度增益。
  2. 将社区聚合为超级节点，构建加权图。
  3. 重复步骤 1 和 2，直到模块度不再增加。

5. 网络相似性度量

汉明距离（Hamming Distance）:
- 汉明距离表示两个网络之间的差异边数。
- 公式：
  $$
  H = n_{01} + n_{10}
  $$
  其中：
  - $ n_{01} $ 是在网络 $ X $ 中没有边但在网络 $ Y $ 中有边的数量。
  - $ n_{10} $ 是在网络 $ X $ 中有边但在网络 $ Y $ 中没有边的数量。
Jaccard 指数（Jaccard Index）:
- Jaccard 指数表示两个网络之间重叠边的比例。
- 公式：
  $$
  J = \frac{n_{11}}{n_{11} + n_{01} + n_{10}}
  $$
  其中：
  - $ n_{11} $ 是在两个网络中都有边的数量。
皮尔逊相关系数（Pearson Correlation）:
- 皮尔逊相关系数用于衡量两个网络之间的线性相关性。
- 公式：
  $$
  r = \frac{\sum_{i,j} (A_{ij} - \bar{A})(B_{ij} - \bar{B})}{\sqrt{\sum_{i,j} (A_{ij} - \bar{A})^2 \sum_{i,j} (B_{ij} - \bar{B})^2}}
  $$
  其中：
  - $ A_{ij} $ 和 $ B_{ij} $ 是两个网络的邻接矩阵元素。
  - $ \bar{A} $ 和 $ \bar{B} $ 是两个网络的平均边权重。

6. 总结

社区检测是理解网络结构的重要工具，帮助识别网络中的紧密连接群体。
模块度是衡量社区划分质量的关键指标，通过最大化模块度可以找到最优的社区划分。
Girvan-Newman 算法和 Louvain 方法是常用的社区检测算法。
网络相似性度量（如汉明距离、Jaccard 指数、皮尔逊相关系数）用于比较不同网络之间的相似性。

以下是基于《Social Network Analysis》第四课课件的详细笔记，涵盖了所有内容，包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织，确保全面且详细，并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析第四课笔记

1. 小世界网络（Small World Networks）

小世界现象:
- 六度分隔理论（Six Degrees of Separation）: 任何两个人之间通过不超过六个中间人相连。
- Milgram 实验: 通过信件传递实验验证了六度分隔理论。
小世界网络的特征:
- 低密度: 网络中的边数相对较少。
- 短路径: 节点之间的平均最短路径较短。
- 高聚类系数: 节点倾向于形成紧密的群体。
- 公式:
  $$
  L = \text{平均最短路径长度}, \quad C = \text{平均聚类系数}
  $$
  其中：
  - $ L $ 是网络中所有节点对之间的平均最短路径长度。
  - $ C $ 是网络中所有节点的局部聚类系数的平均值。
小世界网络的生成模型:
- Watts-Strogatz 模型: 通过随机重连规则生成小世界网络。
  - 公式：
    $$
    p = \text{重连概率}, \quad L(p) = \text{平均路径长度}, \quad C(p) = \text{聚类系数}
    $$
    其中：
    - $ p $ 是重连概率，控制网络的随机性。
    - $ L(p) $ 和 $ C(p) $ 分别表示在不同 $ p $ 值下的平均路径长度和聚类系数。

2. 无标度网络（Scale-Free Networks）

无标度网络的定义:
- 无标度网络的度分布遵循幂律分布，即少数节点具有非常高的度数（“枢纽”节点），而大多数节点的度数较低。
- 公式：
  $$
  P(k) \sim k^{-\gamma}
  $$
  其中：
  - $ P(k) $ 是度数为 $ k $ 的节点的概率。
  - $ \gamma $ 是幂律指数，通常在 $ 2 < \gamma < 3 $ 之间。
无标度网络的生成模型:
- Barabási-Albert 模型: 通过优先连接机制生成无标度网络。
  - 公式：
    $$
    \Pi(k_i) = \frac{k_i}{\sum_j k_j}
    $$
    其中：
    - $ \Pi(k_i) $ 是新节点连接到已有节点 $ i $ 的概率。
    - $ k_i $ 是节点 $ i $ 的度数。
无标度网络的应用:
- 社交网络: 少数人拥有大量的社交关系，而大多数人只有少量关系。
- 互联网: 少数网站拥有大量的链接，而大多数网站只有少量链接。

3. 二次分配程序（Quadratic Assignment Procedure, QAP）

QAP 的基本思想:
- QAP 是一种用于分析网络数据的非参数统计方法，特别适用于处理网络数据中的依赖性问题。
- QAP 通过随机置换节点来生成多个随机数据集，并基于这些数据集构建经验抽样分布。
QAP 的相关性分析:
- QAP 相关性用于检验两个网络矩阵之间的相关性。
- 公式：
  $$
  r = \frac{\sum_{i,j} (A_{ij} - \bar{A})(B_{ij} - \bar{B})}{\sqrt{\sum_{i,j} (A_{ij} - \bar{A})^2 \sum_{i,j} (B_{ij} - \bar{B})^2}}
  $$
  其中：
  - $ A_{ij} $ 和 $ B_{ij} $ 是两个网络的邻接矩阵元素。
  - $ \bar{A} $ 和 $ \bar{B} $ 是两个网络的平均边权重。
QAP 回归分析（MRQAP）:
- MRQAP 是 QAP 的多元回归扩展，用于分析多个自变量对因变量的影响。
- 公式：
  $$
  Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \epsilon
  $$
  其中：
  - $ Y $ 是因变量矩阵。
  - $ X_1, X_2, \ldots, X_k $ 是自变量矩阵。
  - $ \beta_0, \beta_1, \ldots, \beta_k $ 是回归系数。
  - $ \epsilon $ 是误差项。

4. 网络可视化

网络可视化的原则:
- 最小化边交叉: 减少边的交叉，使图形更清晰。
- 最小化边长度方差: 使边的长度尽可能均匀。
- 避免节点靠近非相邻边: 确保节点不会靠近与其不相连的边。
布局算法:
- 力导向布局（Force-Directed Layout）: 使用物理模拟（如弹簧模型）来绘制图形。
- 圆形布局（Circle Layout）: 适用于小世界网络和接近规则的网络。
- 树形布局（Tree Layout）: 适用于层次结构或食物链网络。

5. 总结

小世界网络具有短路径和高聚类系数的特征，Watts-Strogatz 模型是生成小世界网络的经典模型。
无标度网络的度分布遵循幂律分布，Barabási-Albert 模型通过优先连接机制生成无标度网络。
QAP 是一种处理网络数据依赖性的非参数统计方法，适用于相关性分析和回归分析。
网络可视化是理解和展示网络结构的关键步骤，特别是在处理大型和复杂网络时。

社会网络分析第五课笔记

1. 网络建模的目的

网络建模的三种目的:
- 理论发展（Conceptual Work）: 通过模型发展理论，如基于代理的模型（Agent-Based Models）。
- 实证研究（Empirical Work）: 通过数据检验理论，进行统计推断。
- 数据驱动（Data-Driven Work）: 通过机器学习等方法进行数据预测。
网络建模的任务:
- 解释观察到的网络结构，推断生成网络的机制。
- 通过生成模型（Generative Model）模拟网络，并与观察到的数据进行比较，校准模型参数。

2. 指数随机图模型（Exponential Random Graph Model, ERGM）

ERGM 的定义:
- ERGM 是一种用于描述网络结构的概率模型，假设网络是从所有可能的网络中随机抽取的。
- 公式：
  $$
  \Pr(X = x) \propto \exp\left(\sum_{k=1}^K \beta_k s_k(x)\right)
  $$
  其中：
  - $ X $ 是随机网络变量。
  - $ x $ 是观察到的网络。
  - $ \beta_k $ 是模型参数。
  - $ s_k(x) $ 是网络 $ x $ 的子图统计量（如边数、互惠性、传递性等）。
ERGM 的挑战:
- 计算困难: 由于网络空间 $ \mathfrak{X} $ 非常大，计算概率的归一化常数 $ C(\beta) $ 是不可行的。
  - 公式：
    $$
    C(\beta) = \sum_{x \in \mathfrak{X}} \exp\left(\sum_{k=1}^K \beta_k s_k(x)\right)
    $$
  - 对于中等规模的网络，计算 $ C(\beta) $ 是不可行的。
解决方案:
- 基于模拟的推断（Simulation-Based Inference）: 通过马尔可夫链蒙特卡洛（MCMC）方法近似生成网络的概率分布。
- 参数估计: 通过模拟生成的网络与观察到的网络进行比较，校准模型参数 $ \beta_k $。

3. ERGM 的参数解释

参数的意义:
- 参数 $ \beta_k $ 表示子图统计量 $ s_k(x) $ 对网络概率的影响。
- 正参数 $ \beta_k $ 表示该子图在网络中出现的概率较高。
- 负参数 $ \beta_k $ 表示该子图在网络中出现的概率较低。
条件对数几率（Conditional Log-Odds）:
- 公式：
  $$
  \ln\left(\frac{\Pr(X = x^a)}{\Pr(X = x^b)}\right) = \sum_{k=1}^K \beta_k \left(s_k(x^a) - s_k(x^b)\right)
  $$
  其中：
  - $ x^a $ 和 $ x^b $ 是两个不同的网络。
  - 参数 $ \beta_k $ 表示网络 $ x^a $ 相对于 $ x^b $ 的对数几率。

4. ERGM 的应用示例

示例：关于老板的八卦:
- 数据来源: Lea Ellwardt 的博士研究，涉及一个青少年社会工作组织的员工八卦网络。
- 假设:
  - 邻近性假设（Propinquity Hypothesis）: 八卦倾向于在局部群体中传播，形成传递性闭合（Transitive Closure）。
  - 信息不对称假设（Information Asymmetry Hypothesis）: 与老板接触次数不同的员工之间更有可能传播八卦。
模型结果:
- 传递性闭合（Transitive Closure）: 正效应，支持邻近性假设。
- 与老板接触次数的相似性（Similarity in Contacts with Boss）: 负效应，但不显著，信息不对称假设未得到支持。

5. 模型退化（Model Degeneracy）

模型退化问题:
- 当模型参数导致模拟生成的网络集中在极端情况（如全连接或全断开）时，模型被称为“退化”。
- 线性传递性效应（Linear Transitivity Effect）: 容易导致模型退化，因为传递性效应会自我加速，导致网络迅速变得全连接。
解决方案:
- 几何加权传递性效应（Geometrically Weighted Transitivity Effect）: 通过引入几何加权传递性效应，避免模型退化。
  - 公式：
    $$
    s_k(x) = \sum_{m=1}^{n-2} (-1)^{m+1} \frac{\tau_m}{2^{m-1}}
    $$
    其中：
    - $ \tau_m $ 是网络中 $ m $-三角形的数量。

6. 模型拟合优度（Goodness of Fit, GOF）

拟合优度评估:
- 信息准则（AIC, BIC）: 用于比较不同模型的拟合优度。
- 模拟数据与观察数据的比较: 通过生成模拟数据，检查模拟数据是否围绕观察数据分布。
- 其他网络统计量的拟合: 如度分布、最短路径分布等。
收敛性检查:
- 关键问题: 观察到的数据是否位于模拟数据的中心。
- 收敛性诊断: 通过检查模拟数据的轨迹图（Trace Plots）和分布图（Distribution Plots）来评估模型是否收敛。

7. 总结

ERGM 是一种灵活的网络建模工具，能够通过子图统计量描述网络结构。
模型参数 的解释类似于逻辑回归模型，参数的正负表示子图统计量对网络概率的影响。
模型退化 是 ERGM 建模中的常见问题，通过引入几何加权传递性效应可以避免退化。
拟合优度评估 是模型验证的关键步骤，通过模拟数据与观察数据的比较来评估模型的拟合效果。

以下是基于《Social Network Analysis》第六课课件的详细笔记，涵盖了所有内容，包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织，确保全面且详细，并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析第六课笔记

1. 多重网络（Multiplex Networks）

多重网络的定义:
- 多重网络是指在同一组节点之间存在多种类型的关系（如友谊、敌对、信任等）。
- 示例：
  - 友谊、敌对、浪漫关系、信任、声誉、八卦伙伴等。
多重网络的重要性:
- 人类关系是复杂的，单一类型的关系无法全面描述社会网络。
- 多重关系相互交织，忽略其他类型的关系可能导致对网络本质的误解。
  - 例如，借贷网络仅显示银行的中心地位，忽略了其他类型的关系。
历史案例:
- Padgett & Ansell (1993): 通过分析佛罗伦萨的多重关系（婚姻、经济合作等）研究权力斗争。

2. 多重网络的分析方法

多重网络的简化:
- 聚类分析（Cluster Analysis）: 通过聚类分析找到相似的关系类型，并将其合并。
- 多维尺度分析（Multidimensional Scaling, MDS）: 通过可视化方法展示不同关系类型之间的相似性。
  - 公式：
    $$
    \text{Jaccard Index} = \frac{n_{11}}{n_{11} + n_{01} + n_{10}}
    $$
    其中：
    - $ n_{11} $ 是在两个网络中都有边的数量。
    - $ n_{01} $ 和 $ n_{10} $ 是在一个网络中有边，另一个网络中没有边的数量。
多重网络的合并:
- 通过层次聚类（Hierarchical Clustering）将相似的关系类型合并，简化网络分析。

3. 多重网络的描述性统计

低密度（Low Density）:
- 多重网络中的每种关系类型通常具有较低的密度。
- 示例：
  - 友谊、信任等关系的平均出度较低。
高互惠性（High Reciprocity）:
- 某些关系类型（如友谊）具有较高的互惠性，但并非所有关系类型都如此。
- 示例：
  - 友谊的互惠性较高，而敌对关系的互惠性较低。

4. 多重网络的建模

指数随机图模型（ERGM）:
- ERGM 可以用于建模多重网络，通过引入跨网络效应（Cross-Network Effects）来描述不同类型关系之间的相互影响。
- 跨网络效应:
  - 共现（Co-occurrence）: 两种关系类型在同一对节点上同时出现的概率。
  - 交换（Exchange）: 一种关系类型的出现会影响另一种关系类型的出现。
  - 混合传递性（Mixed Triadic Closure）: 不同类型关系之间的传递性闭合。
ERGM 示例:
- 信任（Trust）和工作困难（Difficulty in Work）网络：
  - 共现效应（Entrainment）: 负效应，表示信任和工作困难关系不太可能同时出现。
  - 交换效应（Exchange）: 正效应，表示信任关系和工作困难关系之间存在交换。
  - 入二星效应（In-Two-Star Effect）: 正效应，表示节点的入度在两种关系类型之间存在相关性。

5. 负向关系与结构平衡（Negative Ties and Structural Balance）

结构平衡理论（Structural Balance Theory）:
- Fritz Heider 的平衡理论: 描述个体、对象和观察者之间的关系平衡。
- Cartwright & Harary 的结构平衡理论: 将平衡理论扩展到社会网络，描述三元组中的关系平衡。
  - 平衡三元组: 所有关系均为正向，或两个负向关系和一个正向关系。
  - 不平衡三元组: 其他情况。
结构平衡定理:
- 一个符号图（Signed Graph）是平衡的，当且仅当它可以被划分为最多两个子图，子图内部只有正向关系，子图之间只有负向关系。
- 公式：
  $$
  \text{Balance} \iff \text{Partition into two subgraphs with positive ties within and negative ties between}
  $$
结构平衡的应用:
- 国际关系: 冷战期间的联盟结构、二战期间的联盟结构等。
- 群体结构: 负向关系通常位于群体之间，正向关系位于群体内部。

6. 负向关系的挑战

负向关系的持久性:
- 负向关系在社会网络中往往是持久的，且难以消除。
- 张力管理（Tension Management）: 社会网络中的个体通过管理负向关系来避免网络的完全崩溃。
结构洞与负向关系:
- 负向关系通常位于群体之间，可能成为结构洞（Structural Holes）的桥梁。
- 结构洞理论（Structural Hole Theory）: 负向关系可能为个体提供中介机会，但也可能增加网络的张力。

7. 总结

多重网络是描述复杂社会关系的重要工具，通过分析不同类型的关系可以更全面地理解社会网络。
ERGM 可以用于建模多重网络，通过跨网络效应描述不同类型关系之间的相互影响。
结构平衡理论 提供了分析正向和负向关系的框架，负向关系通常位于群体之间，正向关系位于群体内部。
负向关系的持久性 和 张力管理 是社会网络中的重要挑战，负向关系可能为个体提供中介机会，但也可能增加网络的张力。

好的！以下是第7课的更详细笔记，涵盖了随机行动者导向模型（Stochastic Actor-Oriented Model, SAOM）的核心概念、数学定义、应用示例以及模型估计和检验的详细步骤。笔记会尽量详细，确保不遗漏重要的数学定义和理论部分。

社会网络分析：网络动态建模（Modelling Network Dynamics）

1. 为什么需要建模网络动态？

研究问题：通常从网络特征与个体特征之间的关联开始。
- 例如：受欢迎的学生是否更容易参与高风险行为？南欧学生是否比北欧学生有更多的朋友？
横截面分析：可以使用指数随机图模型（ERGM）来分析这些关联，但无法解释“为什么”和“如何”发生。
动态机制：解释网络变化的机制通常是动态的，例如：
- 同质性选择（Homophily）：学生倾向于与同种族的学生建立友谊。
- 地理邻近性：学生倾向于与住在附近的学生建立友谊。
- 关系破裂：跨种族的关系更容易破裂。

2. 如何建模网络动态？

统计方法：需要控制不同效应之间的相互影响。
纵向数据：需要将前因与后果联系起来。
社会中心网络方法：选择机制只能在知道所有候选人的情况下进行研究。
随机行动者导向模型（SAOM）：由Snijders于1996年提出，用于处理纵向网络数据。

3. SAOM的基本假设

假设1：行动者导向的视角

行动者是模型的核心：网络变化是由行动者的决策驱动的。
两个基本模型组件：
1. 速率函数（Rate Function）：行动者何时可以做出决策？
  - 模型化行动者做出网络变化的机会频率。
2. 目标函数（Objective Function）：行动者做出什么决策？
  - 模型化行动者创建和维护哪些关系。

假设2：可分解性（Decomposability）

离散时间观测：假设通过未观察到的连续时间过程相关联。
最小变化（Ministeps）：网络变化被分解为尽可能小的变化步骤。
- 例如：两个网络之间只有一个关系变量发生变化。

4. SAOM的数学定义

速率函数（Rate Function）

模型化行动者 ( i ) 做出网络变化的速度。
数学公式：
[
\lambda_i(x) = \sum_{k} p_k r_{ik}(x)
]
- ( r_{ik}(x) )：行动者 ( i ) 在网络 ( x ) 中的邻居统计量。
- ( p_k )：模型参数，表示该统计量是否与更频繁的网络变化相关。

目标函数（Objective Function）

模型化网络状态 ( x ) 对行动者 ( i ) 的吸引力。
数学公式：
[
f_i(x) = \sum_{k} \beta_k s_{ik}(x)
]
- ( s_{ik}(x) )：行动者 ( i ) 在网络 ( x ) 中的邻居统计量。
- ( \beta_k )：模型参数，表示该统计量是否被行动者追求（( \beta_k > 0 )）或避免（( \beta_k < 0 )）。

5. 常用的结构效应统计量

出度效应（Outdegree Effect）：行动者倾向于保持一定数量的出度关系。
[
s_i^{\text{outdeg}} = \sum_j x_{ij}
]
互惠效应（Reciprocity Effect）：行动者倾向于互惠关系。
[
s_i^{\text{recip}} = \sum_j x_{ij} x_{ji}
]
传递性效应（Transitivity Effect）：行动者倾向于形成传递性三元组。
[
s_i^{\text{tr.trip}} = \sum_{jk} x_{ij} x_{jk} x_{ik}
]

6. 行动者属性相关的效应

发送者效应（Sender Effect）：某些属性使行动者更倾向于发送关系。
[
\beta_e \sum_j x_{ij} v_i
]
接收者效应（Receiver Effect）：某些属性使行动者更倾向于接收关系。
[
\beta_a \sum_j x_{ij} v_j
]
同质性效应（Homophily Effect）：行动者倾向于与具有相似属性的其他行动者建立关系。
[
\beta_s \sum_j x_{ij} I{v_i = v_j}
]

7. SAOM的参数估计与收敛

蒙特卡洛模拟：通过模拟网络变化来估计模型参数。
收敛性检验：通过比较模拟数据与观测数据的拟合度来评估模型是否收敛。
- 收敛标准：( t_{conv} ) 值应接近0（通常 ( -0.1 < t_{conv} < +0.1 )）。

8. 模型拟合与假设检验

参数显著性检验：通过计算参数与标准误差的比值来检验参数的显著性。
[
\frac{\beta_k}{\text{st.err.}(\beta_k)}
]
- 该比值近似服从标准正态分布，可用于检验 ( H_0: \beta_k = 0 )。
模型拟合：通过检查未包含在模型中的网络特征来评估模型的拟合度。
- 例如：检查入度分布是否与观测数据一致。

9. 网络与行为的共演化

网络依赖行为：个体特征可以影响网络结构（例如：同质性选择）。
行为依赖网络：网络结构可以影响个体特征（例如：社会影响）。
共演化模型：同时建模网络和行为的变化，允许分离选择与影响机制。

10. 选择与影响的混淆问题

同质性偏差（Homophily Bias）：网络中的连接个体往往在行为上更相似。
竞争解释：
1. 选择机制：个体基于相似性选择关系。
2. 影响机制：个体根据其社交环境调整行为。
控制混淆因素：通过测量和控制共享的社会背景来减少未观察到的混淆因素。

11. 示例：MBA学生的建议寻求网络

数据：75名MBA学生，3个时间点的建议寻求网络和考试成绩。
假设：
1. 朋友之间更可能寻求建议（同质性选择）。
2. 成绩较低的学生更可能寻求建议（发送者效应）。
3. 成绩较高的学生更可能被寻求建议（接收者效应）。
结果：所有假设均得到支持。

12. 总结

SAOM 是一种强大的工具，用于建模网络动态和行为共演化。
通过分离选择与影响机制，SAOM 可以帮助解释网络变化的动态过程。
模型参数通过蒙特卡洛模拟估计，并通过拟合度检验评估模型的合理性。

好的！以下是根据你提供的课件内容整理的详细笔记，涵盖了社会网络分析中的角色分析和块模型（Blockmodeling）的核心概念、数学定义和应用。笔记会尽量详细，确保不遗漏重要的数学定义和理论部分。

社会网络分析：角色分析与块模型（Role Analysis and Blockmodeling）**

1. 网络作为矩阵的初步介绍

节点（Nodes）/顶点（Vertices）/行动者（Actors）：网络中的个体或实体。
边（Edges）/关系（Relations）/二元组（Dyads）：节点之间的连接。
数据格式：
- 节点列表（Nodelist）：列出所有节点。
- 社会矩阵（Sociomatrix）：矩阵形式表示节点之间的关系。
- 边列表（Edgelist）：列出所有边的连接关系。

社会矩阵的读取

社会矩阵是一个 ( n \times n ) 的矩阵，其中 ( n ) 是节点的数量。
矩阵中的每个元素 ( a_{ij} ) 表示节点 ( i ) 和节点 ( j ) 之间是否存在关系（通常用 1 表示存在关系，0 表示不存在）。
无自环（No self-ties）：矩阵对角线上的元素 ( a_{ii} ) 通常为 0，表示节点不与自身相连。

对称性（Symmetric）

如果网络是无向的（即关系是双向的），社会矩阵是对称的，即 ( a_{ij} = a_{ji} )。

2. 角色分析的基本概念

社会角色（Social Roles）：
- 社会角色是指在社会结构中，个体所扮演的角色（如 CEO、员工、老师、学生等）。
- 每个角色都有其特定的行为、期望和责任。
- Harrison White 提出，角色可以通过纯粹的关系形式来定义，社会结构是由多重人际关系的网络构成的。
角色与位置的关系：
- 角色是通过互动模式定义的，而不是通过个体的属性。
- 例如，在医院中，医生、护士、行政人员和患者有不同的互动模式，这些模式定义了他们的角色。

3. 块模型（Blockmodeling）

块模型的目标：
- 将网络划分为若干个“块”（blocks），每个块代表一组在结构上等价的节点。
- 通过块模型，可以将复杂的网络简化为更简单的结构，便于分析和理解。

块模型的类型

完全块（Complete Block, com）：块内的所有节点之间都有连接。
空块（Null Block, nul）：块内的节点之间没有任何连接。
规则块（Regular Block, reg）：块内的节点至少有一个出边和一个入边。

块模型的数学定义

结构等价性（Structural Equivalence）：
- 两个节点在结构上等价，当且仅当它们与其他节点的连接模式完全相同。
- 数学上，节点 ( i ) 和节点 ( j ) 是结构等价的，如果对于所有节点 ( k )，都有 ( a_{ik} = a_{jk} ) 且 ( a_{ki} = a_{kj} )。
- 结构等价性通常用于生成完全块和空块。
规则等价性（Regular Equivalence）：
- 两个节点在规则上等价，当且仅当它们连接到其他规则等价的节点。
- 数学上，节点 ( i ) 和节点 ( j ) 是规则等价的，如果它们连接到相同的等价类中的节点。
- 规则等价性通常用于生成规则块。
广义等价性（Generalized Equivalence）：
- 广义等价性允许更灵活的定义，块可以是完全块、空块、规则块，或其他类型的块（如行规则块、列规则块等）。

4. 块模型的构建步骤

直接方法（Direct Blockmodeling）

初始分区：随机将节点分配到若干个位置（positions）。
局部优化：通过移动或交换节点来优化分区，使得块模型与理想块类型（如完全块、空块等）的拟合度最高。
拟合度评估：使用拟合度函数（如汉明距离、加权相关系数等）评估块模型的质量。
块模型的生成：根据最优分区生成块模型。

间接方法（Indirect Blockmodeling）

计算等价性度量：首先计算节点之间的结构等价性（或其他等价性度量）。
生成相似性矩阵：根据等价性度量生成节点之间的相似性矩阵。
聚类分析：使用层次聚类等方法将节点划分为若干个等价类。
生成块模型：根据聚类结果生成块模型。

5. 块模型的数学工具

汉明距离（Hamming Distance）

汉明距离用于衡量两个块模型之间的差异。
对于两个块模型 ( A ) 和 ( B )，汉明距离定义为两个矩阵中不一致的元素数量。
数学公式：
[
H(A, B) = \sum_{i=1}^n \sum_{j=1}^n |a_{ij} - b_{ij}|
]
其中 ( a_{ij} ) 和 ( b_{ij} ) 分别是矩阵 ( A ) 和 ( B ) 的元素。

加权相关系数（Weighted Correlation Coefficient）

加权相关系数用于衡量块模型与理想块类型之间的拟合度。
数学公式：
[
\rho = \frac{\sum_{i=1}^n \sum_{j=1}^n w_{ij} (a_{ij} - \bar{a})(b_{ij} - \bar{b})}{\sqrt{\sum_{i=1}^n \sum_{j=1}^n w_{ij} (a_{ij} - \bar{a})^2 \sum_{i=1}^n \sum_{j=1}^n w_{ij} (b_{ij} - \bar{b})^2}}
]
其中 ( w_{ij} ) 是权重，( \bar{a} ) 和 ( \bar{b} ) 分别是矩阵 ( A ) 和 ( B ) 的均值。

6. 块模型的应用

核心-外围结构（Core-Periphery Structure）

核心-外围结构是一种常见的网络结构，其中核心节点之间高度连接，而外围节点只与核心节点连接。
通过块模型，可以将网络划分为核心和外围两个块，并分析它们之间的关系。

社区检测（Community Detection）

社区检测是块模型的一种应用，用于识别网络中的社区结构。
常用的算法包括模块化优化算法（Modularity Optimization），通过最大化模块化值来识别社区。

7. 块模型的软件工具

Socnet.se：一个用于直接块模型分析的命令行工具，支持结构等价性、规则等价性和广义等价性分析。
R 脚本：可以使用 R 语言进行间接块模型分析，支持层次聚类和块模型的生成。

8. 总结

块模型和角色分析是理解复杂网络结构的有力工具。
通过将网络划分为等价的位置，并分析这些位置之间的关系模式，可以揭示网络的功能解剖学。
数学工具如汉明距离和加权相关系数用于评估块模型的拟合度，确保分析的准确性。

如果你有任何具体的问题或需要进一步的解释，请告诉我！

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。