Posted on 

Social Network Analysis

社会网络分析课程笔记 - 第1周

1. 课程概述

  • 课程目标: 介绍社会网络分析的理论和方法,帮助学生理解网络思维,掌握基本的社会网络概念,并能够使用R语言处理、描述和可视化网络数据。
  • 学习目标:
    • 理解网络思维和基本的社会网络概念。
    • 能够从社会网络嵌入的角度回答社会科学问题。
    • 使用R语言存储、读取、描述和可视化网络数据。
    • 检测网络中的社区和角色模式。
    • 运行指数随机图模型(ERGMs)分析横截面网络数据。
    • 分析纵向社会网络数据,包括使用随机行动者导向模型(SAOMs)分离选择和影响。
    • 理解并解释这些统计技术的结果,同时注意模型的局限性和拟合优度。

2. 课程结构

  • 课程安排: 共10周,每周有不同的主题和活动,包括讲座、实验室和文献研讨会。
    • 第1周: 网络介绍,为什么研究社会网络。
    • 第2周: 社会网络的描述和可视化。
    • 第3周: 社区检测和群体分析。
    • 第4周: 小世界网络和传染现象。
    • 第5周: 指数随机图模型(ERGMs)。
    • 第6周: 多重网络和负向关系。
    • 第7周: 随机行动者导向模型(SAOMs)。
    • 第8周: 块模型分析。
    • 第9-10周: 最终项目的在线咨询。

4. 社会网络分析的核心概念

  1. 网络研究在社会科学中的应用:

    • 传统调查数据关注个体的属性(如年龄、收入、教育等),而社会网络分析关注个体之间的关系(如友谊、合作等)。
    • 社会网络分析适用于研究社会系统中个体、属性和行为的相互依赖性。
  2. 社会网络的层次:

    • 网络层次: 研究整个社会系统的功能。
    • 行动者层次: 研究个体在社会系统中的行为。
    • 二元层次: 研究个体之间的关系依赖性。
  3. 社会网络的类型:

    • 正式网络 vs. 非正式网络: 正式网络是设计的、结构化的(如组织架构),非正式网络是自然形成的(如社区关系)。
    • 社会网络分析的焦点: 通常关注非正式、自然形成的网络现象。

5. 社会网络分析的历史

  • Jacob L. Moreno: 1932年首次使用社会矩阵和社会图来展示儿童之间的喜欢和不喜欢关系。
  • John Barnes: 1954年提出了“社会网络”的概念,认为社会关系是由点和线组成的。
  • 1970年代: 社会学家开始应用图论、聚类和空间建模方法来研究小群体结构和社区网络。
  • 1990年代末至2000年代初: 网络科学的兴起,依赖于图论、小世界网络和无标度网络的研究。

6. 社会网络分析 vs. 网络科学

  • 社会网络分析:
    • 根植于行为科学、地理学和社会学。
    • 通常是假设驱动的。
    • 关注小型到中型网络(<100个节点)。
    • 强调社会科学的背景和问题。
  • 网络科学:
    • 根植于物理学和数学。
    • 通常是探索性的。
    • 关注大型网络(>100个节点)。
    • 强调网络结构,跨学科应用。

7. 社会网络分析的核心理论贡献

  1. 社会资本:

    • James Coleman: 社会资本作为群体凝聚和封闭的产物。
    • Mark Granovetter: 弱关系的力量(Weak Ties)。
    • Ronald Burt: 结构洞(Structural Holes)。
    • Robert Putnam: 公民参与和成员关系。
  2. 嵌入性:

    • Mark Granovetter: 经济行为嵌入社会结构中。
    • Brian Uzzi: 嵌入性与组织绩效的关系。
  3. 网络同质性:

    • 社会网络中的同质性选择和社会影响导致网络的隔离。

8. 社会网络分析的例子

  • R&D团队的沟通网络: 研究团队成员之间的沟通模式。
  • 无家可归妇女的自我网络: 研究个体在社会网络中的强关系。
  • 库拉环: 研究太平洋岛屿之间的礼物交换网络。
  • 俄罗斯贸易路线: 研究12-13世纪的贸易网络。
  • 土耳其内部迁移: 使用网络分析研究人口迁移模式。

9. 网络数据的数学表示

  1. 网络的定义:

    • 一个网络(或图)可以表示为 $ G = (V, E) $,其中:
      • $ V = {1, 2, …, n} $ 是节点的集合(也称为顶点或行动者)。
      • $ E \subseteq {<i,j> | i,j \in V} $ 是边的集合(也称为关系或连接)。
    • 社会网络分析中,节点通常表示个体、组织、国家等,边表示它们之间的关系(如友谊、合作等)。
  2. 邻接矩阵:

    • 网络可以用邻接矩阵 $ X $ 表示,其中:
      • $ x_{ij} = 1 $ 如果节点 $ i $ 与节点 $ j $ 之间有边(即 $ <i,j> \in E $)。
      • $ x_{ij} = 0 $ 如果节点 $ i $ 与节点 $ j $ 之间没有边。
    • 对于无向网络,邻接矩阵是对称的,即 $ x_{ij} = x_{ji} $。
    • 对于有向网络,邻接矩阵不一定对称。
  3. 节点列表和边列表:

    • 节点列表: 列出每个节点的邻居。
      • 例如:
        1
        2
        3
        4
        5
        a1: a3
        a2:
        a3: a2, a4, a5
        a4: a5
        a5: a4
    • 边列表: 列出所有边及其权重(如果有)。
      • 例如:
        1
        2
        3
        4
        5
        6
        a1 a3 1
        a3 a2 1
        a3 a4 1
        a3 a5 1
        a4 a5 1
        a5 a4 1

10. 网络的基本指标

  1. 网络密度:

    • 密度表示网络中实际存在的关系占所有可能关系的比例。
    • 公式:
      $$
      \text{density} = \frac{2M + A}{n(n-1)}
      $$
      其中:
      • $ M $ 是双向关系的数量。
      • $ A $ 是单向关系的数量。
      • $ n $ 是节点的数量。
  2. 互惠性:

    • 互惠性表示网络中双向关系的比例。
    • 公式:
      $$
      \text{reciprocity} = \frac{2M}{2M + A}
      $$
      其中:
      • $ M $ 是双向关系的数量。
      • $ A $ 是单向关系的数量。
  3. 传递性:

    • 传递性表示网络中三元关系的传递性。
    • 公式:
      $$
      \text{transitivity} = \frac{\sum_{i \neq j, k \neq i, k \neq j} x_{ik} x_{kj} x_{ij}}{\sum_{i \neq j, k \neq i, k \neq j} x_{ik} x_{kj}}
      $$
      其中:
      • $ x_{ij} $ 表示节点 $ i $ 和 $ j $ 之间的关系。

11. 矩阵运算与网络分析

  1. 邻接矩阵的幂:

    • 邻接矩阵的幂 $ X^k $ 表示节点之间通过 $ k $ 步路径的连接情况。
    • 例如,$ X^2 $ 表示节点之间通过两步路径的连接情况。
    • 公式:
      $$
      X^2 = X \times X
      $$
      其中:
      • $ X^2_{ij} $ 表示节点 $ i $ 和 $ j $ 之间通过两步路径的连接数量。
  2. 最短路径(Geodesic Distance):

    • 最短路径是指两个节点之间最短的连接路径的长度。
    • 通过邻接矩阵的幂运算可以计算最短路径。
    • 例如,如果 $ X^k_{ij} > 0 $ 且 $ X^{k-1}_{ij} = 0 $,则节点 $ i $ 和 $ j $ 之间的最短路径长度为 $ k $。

12. 中心性度量

  1. 度中心性(Degree Centrality):

    • 度中心性表示一个节点的连接数量。
    • 对于有向网络,分为入度(in-degree)和出度(out-degree)。
    • 公式:
      $$
      \text{degree centrality}(i) = \sum_{j} x_{ij}
      $$
  2. 特征向量中心性(Eigenvector Centrality):

    • 特征向量中心性表示一个节点的中心性与其邻居的中心性成正比。
    • 公式:
      $$
      \mathbf{v} = \lambda^{-1} X \mathbf{v}
      $$
      其中:
      • $ \mathbf{v} $ 是特征向量。
      • $ \lambda $ 是特征值。
  3. 介数中心性(Betweenness Centrality):

    • 介数中心性表示一个节点在所有最短路径中出现的频率。
    • 公式:
      $$
      \text{betweenness centrality}(i) = \sum_{j \neq k \neq i} \frac{\sigma_{jk}(i)}{\sigma_{jk}}
      $$
      其中:
      • $ \sigma_{jk} $ 是节点 $ j $ 和 $ k $ 之间的最短路径数量。
      • $ \sigma_{jk}(i) $ 是节点 $ j $ 和 $ k $ 之间经过节点 $ i $ 的最短路径数量。

13. 网络的其他度量

  1. 聚类系数(Clustering Coefficient):

    • 聚类系数表示一个节点的邻居之间相互连接的程度。
    • 公式:
      $$
      \text{clustering coefficient}(i) = \frac{2 \times \text{number of triangles connected to } i}{\text{degree}(i) \times (\text{degree}(i) - 1)}
      $$
  2. 网络直径(Diameter):

    • 网络直径是网络中任意两个节点之间最长的最短路径。

14. 二模网络(Bipartite Networks)

  1. 二模网络的定义:

    • 二模网络由两组不同的节点组成,边只存在于两组节点之间。
    • 例如,人和事件之间的关系。
  2. 二模网络的投影:

    • 二模网络可以投影为两个一模网络:
      • 节点到节点的网络: 表示两个节点共享了多少个事件。
      • 事件到事件的网络: 表示两个事件共享了多少个节点。
    • 投影公式:
      $$
      P = X \cdot X^T
      $$
      其中:
      • $ X $ 是二模网络的邻接矩阵。
      • $ P $ 是投影后的一模网络。

15. 网络数据的转换

  1. 二值化(Dichotomization):

    • 将加权网络转换为二值网络。
    • 公式:
      $$
      b_{ij} =
      \begin{cases}
      1 & \text{if } x_{ij} \geq \text{cutoff} \
      0 & \text{if } x_{ij} < \text{cutoff}
      \end{cases}
      $$
      其中:
      • $ x_{ij} $ 是原始网络的权重。
      • $ \text{cutoff} $ 是阈值。
  2. 对称化(Symmetrization):

    • 将有向网络转换为无向网络。
    • 公式:
      $$
      b_{ij} = \max(x_{ij}, x_{ji})
      $$

16. 总结

  • 社会网络分析涉及大量的数学和统计方法,特别是图论和矩阵运算。
  • 网络数据的表示和分析依赖于邻接矩阵、节点列表和边列表等数据结构。
  • 网络指标如密度、中心性、传递性等帮助我们理解网络的结构和功能。
  • 二模网络网络数据的转换(如二值化和对称化)是处理复杂网络数据的重要工具。

好的!以下是基于《Social Network Analysis》第二课课件的详细笔记,涵盖了所有内容,包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织,确保全面且详细,并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析课程笔记 - 第2周

1. 网络层次的基本指标

  1. 最短路径分布(Geodesic Distributions):

    • 对于每个网络,可以计算每个距离出现的频率,生成最短路径的分布。
    • 如果节点位于不同的组件中,则它们之间的距离为无穷大。
    • 公式:
      $$
      \text{Geodesic Distance}(i, j) = \text{最短路径的长度}
      $$
    • 示例:在英格兰/威尔士的学校友谊网络中,最短路径分布随时间变化。
  2. 度分布(Degree Distributions):

    • 度分布表示网络中每个节点的出度或入度的频率分布。
    • 公式:
      $$
      \text{Degree Distribution}(k) = \text{具有度 } k \text{ 的节点数量}
      $$
    • 示例:苏格兰学校友谊网络中的出度和入度分布。
  3. 无标度网络(Scale-Free Networks):

    • 度分布通常在“对数-对数”尺度上绘制。
    • 如果分布在对数-对数尺度上呈线性,则网络被称为“无标度网络”。
    • 公式:
      $$
      P(k) \sim k^{-\gamma}
      $$
      其中:
      • $ P(k) $ 是度为 $ k $ 的节点的概率。
      • $ \gamma $ 是幂律指数。

2. 行动者层次的中心性度量

  1. 中心性的基本概念:

    • 中心性度量用于衡量节点在网络中的结构优势。
    • 当节点在中心性上差异较大时,网络被称为“集中化”网络。
  2. 度中心性(Degree Centrality):

    • 度中心性表示一个节点的连接数量。
    • 公式:
      $$
      \text{Degree Centrality}(i) = \sum_{j} x_{ij}
      $$
      其中:
      • $ x_{ij} $ 表示节点 $ i $ 和 $ j $ 之间的连接。
  3. 特征向量中心性(Eigenvector Centrality):

    • 特征向量中心性表示一个节点的中心性与其邻居的中心性成正比。
    • 公式:
      $$
      \mathbf{v} = \lambda^{-1} X \mathbf{v}
      $$
      其中:
      • $ \mathbf{v} $ 是特征向量。
      • $ \lambda $ 是特征值。
  4. 介数中心性(Betweenness Centrality):

    • 介数中心性表示一个节点在所有最短路径中出现的频率。
    • 公式:
      $$
      \text{Betweenness Centrality}(i) = \sum_{j \neq k \neq i} \frac{\sigma_{jk}(i)}{\sigma_{jk}}
      $$
      其中:
      • $ \sigma_{jk} $ 是节点 $ j $ 和 $ k $ 之间的最短路径数量。
      • $ \sigma_{jk}(i) $ 是节点 $ j $ 和 $ k $ 之间经过节点 $ i $ 的最短路径数量。

3. 网络的其他度量

  1. 聚类系数(Clustering Coefficient):

    • 聚类系数表示一个节点的邻居之间相互连接的程度。
    • 公式:
      $$
      \text{Clustering Coefficient}(i) = \frac{2 \times \text{number of triangles connected to } i}{\text{degree}(i) \times (\text{degree}(i) - 1)}
      $$
  2. 网络直径(Diameter):

    • 网络直径是网络中任意两个节点之间最长的最短路径。

4. 网络数据的处理与转换

  1. 二值化(Dichotomization):

    • 将加权网络转换为二值网络。
    • 公式:
      $$
      b_{ij} =
      \begin{cases}
      1 & \text{if } x_{ij} \geq \text{cutoff} \
      0 & \text{if } x_{ij} < \text{cutoff}
      \end{cases}
      $$
      其中:
      • $ x_{ij} $ 是原始网络的权重。
      • $ \text{cutoff} $ 是阈值。
  2. 对称化(Symmetrization):

    • 将有向网络转换为无向网络。
    • 公式:
      $$
      b_{ij} = \max(x_{ij}, x_{ji})
      $$

5. 二模网络(Bipartite Networks)

  1. 二模网络的定义:

    • 二模网络由两组不同的节点组成,边只存在于两组节点之间。
    • 例如,人和事件之间的关系。
  2. 二模网络的投影:

    • 二模网络可以投影为两个一模网络:
      • 节点到节点的网络: 表示两个节点共享了多少个事件。
      • 事件到事件的网络: 表示两个事件共享了多少个节点。
    • 投影公式:
      $$
      P = X \cdot X^T
      $$
      其中:
      • $ X $ 是二模网络的邻接矩阵。
      • $ P $ 是投影后的一模网络。

6. 网络可视化

  1. 可视化原则:

    • 最小化边交叉: 减少边的交叉,使图形更清晰。
    • 最小化边长度方差: 使边的长度尽可能均匀。
    • 避免节点靠近非相邻边: 确保节点不会靠近与其不相连的边。
  2. 布局算法:

    • 力导向布局(Force-Directed Layout):
      • 使用物理模拟(如弹簧模型)来绘制图形。
      • 常见的算法包括 Kamada-Kawai 和 Fruchterman-Reingold。
    • 圆形布局(Circle Layout):
      • 适用于小世界网络和接近规则的网络。
    • 树形布局(Tree Layout):
      • 适用于层次结构或食物链网络。
  3. 大型网络的可视化:

    • 大型网络无法完全显示所有节点和边,因此需要压缩信息。
    • 常见的策略包括:
      • 仅显示网络的一个子集。
      • 突出显示关键节点属性。
      • 使用径向布局(Radial Layout)来分层显示网络。

7. 纵向网络(Longitudinal Networks)

  1. 纵向网络的特点:

    • 纵向网络涉及多个时间点的网络数据。
    • 网络的结构和组成可能随时间变化。
    • 可视化的目标是比较不同时间点的网络或展示网络的演化。
  2. 可视化策略:

    • 固定节点位置: 为了便于比较,可以固定节点的位置。
    • 联合优化: 使用联合优化算法来平衡不同时间点的布局。

8. 总结

  • 社会网络分析涉及大量的数学和统计方法,特别是图论和矩阵运算。
  • 网络指标如密度、中心性、传递性等帮助我们理解网络的结构和功能。
  • 网络数据的转换(如二值化和对称化)是处理复杂网络数据的重要工具。
  • 网络可视化是理解和展示网络结构的关键步骤,特别是在处理大型和纵向网络时。

以下是基于《Social Network Analysis》第三课课件的详细笔记,涵盖了所有内容,包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织,确保全面且详细,并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析课程笔记 - 第3周

1. 社区检测(Community Detection)

  1. 社区的定义:

    • 社区是指网络中一组紧密连接的节点,组内节点之间的连接比组外节点之间的连接更紧密。
    • 社区可以是外生的(如团队成员的划分)或内生的(通过网络结构检测)。
  2. 社区检测的意义:

    • 中观层次(Meso-level): 社区介于微观(个体)和宏观(整体网络)之间,有助于理解社会规范、领导力、群体冲突等。
    • 应用场景: 市场营销、犯罪群体识别、欺诈检测、推荐系统等。

2. 社区检测的方法

  1. 基于凝聚子群(Cohesive Subgroups)的方法:

    • 团(Cliques):

      • 团是一个完全连接的子图,即团内的每对节点之间都有边连接。
      • 团是极大的,意味着不能通过添加更多节点来扩展团。
      • 公式:
        $$
        \text{Clique}(S) = \text{Complete}(S) \land \text{Maximal}(S)
        $$
        其中:
        • $ S $ 是节点子集。
        • $ \text{Complete}(S) $ 表示 $ S $ 中的每对节点都有边连接。
        • $ \text{Maximal}(S) $ 表示 $ S $ 不能通过添加更多节点来扩展。
    • n-团(n-Cliques):

      • n-团是指子集中的每对节点之间的路径长度不超过 $ n $。
      • 公式:
        $$
        \text{n-Clique}(S) = \text{Maximal}(S) \land \text{Distance}(i, j) \leq n, \forall i, j \in S
        $$
        其中:
        • $ \text{Distance}(i, j) $ 是节点 $ i $ 和 $ j $ 之间的最短路径长度。
    • k-核(k-Core):

      • k-核是指子集中的每个节点至少与子集中的 $ k $ 个其他节点相连。
      • 公式:
        $$
        \text{k-Core}(S) = \text{Maximal}(S) \land \text{Degree}(i) \geq k, \forall i \in S
        $$
        其中:
        • $ \text{Degree}(i) $ 是节点 $ i $ 在子集中的度数。
  2. 层次聚类(Hierarchical Clustering):

    • 层次聚类是一种自底向上的聚类方法,逐步合并最相似的簇。
    • 公式:
      $$
      \text{Similarity}(C_1, C_2) = \text{Measure}(C_1, C_2)
      $$
      其中:
      • $ C_1 $ 和 $ C_2 $ 是两个簇。
      • $ \text{Measure} $ 是相似性度量(如距离、相关性等)。

3. 模块度(Modularity)

  1. 模块度的定义:

    • 模块度用于衡量网络划分为模块的强度,表示组内边的比例减去随机分布下的期望比例。
    • 公式:
      $$
      Q = \frac{1}{2m} \sum_{ij} \left[ A_{ij} - \frac{k_i k_j}{2m} \right] \delta (c_i, c_j)
      $$
      其中:
      • $ m $ 是网络中的边数。
      • $ A_{ij} $ 是邻接矩阵的元素,表示节点 $ i $ 和 $ j $ 之间是否有边。
      • $ k_i $ 和 $ k_j $ 是节点 $ i $ 和 $ j $ 的度数。
      • $ \delta(c_i, c_j) $ 是 Kronecker delta 函数,当 $ c_i = c_j $ 时为 1,否则为 0。
  2. 模块度的解释:

    • $ Q $ 的取值范围为 $[-1, 1]$。
    • $ Q > 0 $ 表示组内边的比例高于随机分布下的期望比例。
    • $ Q = 0 $ 表示组内边的比例与随机分布下的期望比例相同。

4. 社区检测算法

  1. Girvan-Newman 算法:

    • 基于边介数(Edge Betweenness)的层次聚类方法。
    • 步骤:
      1. 计算每条边的介数。
      2. 移除介数最高的边。
      3. 重复步骤 1 和 2,直到所有边被移除。
    • 结果生成一个树状图(Dendrogram)。
  2. Louvain 方法:

    • 一种贪婪算法,通过最大化模块度来检测社区。
    • 步骤:
      1. 将节点分配到局部社区,以最大化模块度增益。
      2. 将社区聚合为超级节点,构建加权图。
      3. 重复步骤 1 和 2,直到模块度不再增加。

5. 网络相似性度量

  1. 汉明距离(Hamming Distance):

    • 汉明距离表示两个网络之间的差异边数。
    • 公式:
      $$
      H = n_{01} + n_{10}
      $$
      其中:
      • $ n_{01} $ 是在网络 $ X $ 中没有边但在网络 $ Y $ 中有边的数量。
      • $ n_{10} $ 是在网络 $ X $ 中有边但在网络 $ Y $ 中没有边的数量。
  2. Jaccard 指数(Jaccard Index):

    • Jaccard 指数表示两个网络之间重叠边的比例。
    • 公式:
      $$
      J = \frac{n_{11}}{n_{11} + n_{01} + n_{10}}
      $$
      其中:
      • $ n_{11} $ 是在两个网络中都有边的数量。
  3. 皮尔逊相关系数(Pearson Correlation):

    • 皮尔逊相关系数用于衡量两个网络之间的线性相关性。
    • 公式:
      $$
      r = \frac{\sum_{i,j} (A_{ij} - \bar{A})(B_{ij} - \bar{B})}{\sqrt{\sum_{i,j} (A_{ij} - \bar{A})^2 \sum_{i,j} (B_{ij} - \bar{B})^2}}
      $$
      其中:
      • $ A_{ij} $ 和 $ B_{ij} $ 是两个网络的邻接矩阵元素。
      • $ \bar{A} $ 和 $ \bar{B} $ 是两个网络的平均边权重。

6. 总结

  • 社区检测是理解网络结构的重要工具,帮助识别网络中的紧密连接群体。
  • 模块度是衡量社区划分质量的关键指标,通过最大化模块度可以找到最优的社区划分。
  • Girvan-Newman 算法Louvain 方法是常用的社区检测算法。
  • 网络相似性度量(如汉明距离、Jaccard 指数、皮尔逊相关系数)用于比较不同网络之间的相似性。

以下是基于《Social Network Analysis》第四课课件的详细笔记,涵盖了所有内容,包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织,确保全面且详细,并使用 $$ 的 LaTeX 语法标记数学公式。

社会网络分析第四课笔记

1. 小世界网络(Small World Networks)

  1. 小世界现象:

    • 六度分隔理论(Six Degrees of Separation): 任何两个人之间通过不超过六个中间人相连。
    • Milgram 实验: 通过信件传递实验验证了六度分隔理论。
  2. 小世界网络的特征:

    • 低密度: 网络中的边数相对较少。
    • 短路径: 节点之间的平均最短路径较短。
    • 高聚类系数: 节点倾向于形成紧密的群体。
    • 公式:
      $$
      L = \text{平均最短路径长度}, \quad C = \text{平均聚类系数}
      $$
      其中:
      • $ L $ 是网络中所有节点对之间的平均最短路径长度。
      • $ C $ 是网络中所有节点的局部聚类系数的平均值。
  3. 小世界网络的生成模型:

    • Watts-Strogatz 模型: 通过随机重连规则生成小世界网络。
      • 公式:
        $$
        p = \text{重连概率}, \quad L(p) = \text{平均路径长度}, \quad C(p) = \text{聚类系数}
        $$
        其中:
        • $ p $ 是重连概率,控制网络的随机性。
        • $ L(p) $ 和 $ C(p) $ 分别表示在不同 $ p $ 值下的平均路径长度和聚类系数。

2. 无标度网络(Scale-Free Networks)

  1. 无标度网络的定义:

    • 无标度网络的度分布遵循幂律分布,即少数节点具有非常高的度数(“枢纽”节点),而大多数节点的度数较低。
    • 公式:
      $$
      P(k) \sim k^{-\gamma}
      $$
      其中:
      • $ P(k) $ 是度数为 $ k $ 的节点的概率。
      • $ \gamma $ 是幂律指数,通常在 $ 2 < \gamma < 3 $ 之间。
  2. 无标度网络的生成模型:

    • Barabási-Albert 模型: 通过优先连接机制生成无标度网络。
      • 公式:
        $$
        \Pi(k_i) = \frac{k_i}{\sum_j k_j}
        $$
        其中:
        • $ \Pi(k_i) $ 是新节点连接到已有节点 $ i $ 的概率。
        • $ k_i $ 是节点 $ i $ 的度数。
  3. 无标度网络的应用:

    • 社交网络: 少数人拥有大量的社交关系,而大多数人只有少量关系。
    • 互联网: 少数网站拥有大量的链接,而大多数网站只有少量链接。

3. 二次分配程序(Quadratic Assignment Procedure, QAP)

  1. QAP 的基本思想:

    • QAP 是一种用于分析网络数据的非参数统计方法,特别适用于处理网络数据中的依赖性问题。
    • QAP 通过随机置换节点来生成多个随机数据集,并基于这些数据集构建经验抽样分布。
  2. QAP 的相关性分析:

    • QAP 相关性用于检验两个网络矩阵之间的相关性。
    • 公式:
      $$
      r = \frac{\sum_{i,j} (A_{ij} - \bar{A})(B_{ij} - \bar{B})}{\sqrt{\sum_{i,j} (A_{ij} - \bar{A})^2 \sum_{i,j} (B_{ij} - \bar{B})^2}}
      $$
      其中:
      • $ A_{ij} $ 和 $ B_{ij} $ 是两个网络的邻接矩阵元素。
      • $ \bar{A} $ 和 $ \bar{B} $ 是两个网络的平均边权重。
  3. QAP 回归分析(MRQAP):

    • MRQAP 是 QAP 的多元回归扩展,用于分析多个自变量对因变量的影响。
    • 公式:
      $$
      Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \epsilon
      $$
      其中:
      • $ Y $ 是因变量矩阵。
      • $ X_1, X_2, \ldots, X_k $ 是自变量矩阵。
      • $ \beta_0, \beta_1, \ldots, \beta_k $ 是回归系数。
      • $ \epsilon $ 是误差项。

4. 网络可视化

  1. 网络可视化的原则:

    • 最小化边交叉: 减少边的交叉,使图形更清晰。
    • 最小化边长度方差: 使边的长度尽可能均匀。
    • 避免节点靠近非相邻边: 确保节点不会靠近与其不相连的边。
  2. 布局算法:

    • 力导向布局(Force-Directed Layout): 使用物理模拟(如弹簧模型)来绘制图形。
    • 圆形布局(Circle Layout): 适用于小世界网络和接近规则的网络。
    • 树形布局(Tree Layout): 适用于层次结构或食物链网络。

5. 总结

  • 小世界网络具有短路径和高聚类系数的特征,Watts-Strogatz 模型是生成小世界网络的经典模型。
  • 无标度网络的度分布遵循幂律分布,Barabási-Albert 模型通过优先连接机制生成无标度网络。
  • QAP 是一种处理网络数据依赖性的非参数统计方法,适用于相关性分析和回归分析。
  • 网络可视化是理解和展示网络结构的关键步骤,特别是在处理大型和复杂网络时。

社会网络分析第五课笔记

1. 网络建模的目的

  1. 网络建模的三种目的:

    • 理论发展(Conceptual Work): 通过模型发展理论,如基于代理的模型(Agent-Based Models)。
    • 实证研究(Empirical Work): 通过数据检验理论,进行统计推断。
    • 数据驱动(Data-Driven Work): 通过机器学习等方法进行数据预测。
  2. 网络建模的任务:

    • 解释观察到的网络结构,推断生成网络的机制。
    • 通过生成模型(Generative Model)模拟网络,并与观察到的数据进行比较,校准模型参数。

2. 指数随机图模型(Exponential Random Graph Model, ERGM)

  1. ERGM 的定义:

    • ERGM 是一种用于描述网络结构的概率模型,假设网络是从所有可能的网络中随机抽取的。
    • 公式:
      $$
      \Pr(X = x) \propto \exp\left(\sum_{k=1}^K \beta_k s_k(x)\right)
      $$
      其中:
      • $ X $ 是随机网络变量。
      • $ x $ 是观察到的网络。
      • $ \beta_k $ 是模型参数。
      • $ s_k(x) $ 是网络 $ x $ 的子图统计量(如边数、互惠性、传递性等)。
  2. ERGM 的挑战:

    • 计算困难: 由于网络空间 $ \mathfrak{X} $ 非常大,计算概率的归一化常数 $ C(\beta) $ 是不可行的。
      • 公式:
        $$
        C(\beta) = \sum_{x \in \mathfrak{X}} \exp\left(\sum_{k=1}^K \beta_k s_k(x)\right)
        $$
      • 对于中等规模的网络,计算 $ C(\beta) $ 是不可行的。
  3. 解决方案:

    • 基于模拟的推断(Simulation-Based Inference): 通过马尔可夫链蒙特卡洛(MCMC)方法近似生成网络的概率分布。
    • 参数估计: 通过模拟生成的网络与观察到的网络进行比较,校准模型参数 $ \beta_k $。

3. ERGM 的参数解释

  1. 参数的意义:

    • 参数 $ \beta_k $ 表示子图统计量 $ s_k(x) $ 对网络概率的影响。
    • 正参数 $ \beta_k $ 表示该子图在网络中出现的概率较高。
    • 负参数 $ \beta_k $ 表示该子图在网络中出现的概率较低。
  2. 条件对数几率(Conditional Log-Odds):

    • 公式:
      $$
      \ln\left(\frac{\Pr(X = x^a)}{\Pr(X = x^b)}\right) = \sum_{k=1}^K \beta_k \left(s_k(x^a) - s_k(x^b)\right)
      $$
      其中:
      • $ x^a $ 和 $ x^b $ 是两个不同的网络。
      • 参数 $ \beta_k $ 表示网络 $ x^a $ 相对于 $ x^b $ 的对数几率。

4. ERGM 的应用示例

  1. 示例:关于老板的八卦:

    • 数据来源: Lea Ellwardt 的博士研究,涉及一个青少年社会工作组织的员工八卦网络。
    • 假设:
      • 邻近性假设(Propinquity Hypothesis): 八卦倾向于在局部群体中传播,形成传递性闭合(Transitive Closure)。
      • 信息不对称假设(Information Asymmetry Hypothesis): 与老板接触次数不同的员工之间更有可能传播八卦。
  2. 模型结果:

    • 传递性闭合(Transitive Closure): 正效应,支持邻近性假设。
    • 与老板接触次数的相似性(Similarity in Contacts with Boss): 负效应,但不显著,信息不对称假设未得到支持。

5. 模型退化(Model Degeneracy)

  1. 模型退化问题:

    • 当模型参数导致模拟生成的网络集中在极端情况(如全连接或全断开)时,模型被称为“退化”。
    • 线性传递性效应(Linear Transitivity Effect): 容易导致模型退化,因为传递性效应会自我加速,导致网络迅速变得全连接。
  2. 解决方案:

    • 几何加权传递性效应(Geometrically Weighted Transitivity Effect): 通过引入几何加权传递性效应,避免模型退化。
      • 公式:
        $$
        s_k(x) = \sum_{m=1}^{n-2} (-1)^{m+1} \frac{\tau_m}{2^{m-1}}
        $$
        其中:
        • $ \tau_m $ 是网络中 $ m $-三角形的数量。

6. 模型拟合优度(Goodness of Fit, GOF)

  1. 拟合优度评估:

    • 信息准则(AIC, BIC): 用于比较不同模型的拟合优度。
    • 模拟数据与观察数据的比较: 通过生成模拟数据,检查模拟数据是否围绕观察数据分布。
    • 其他网络统计量的拟合: 如度分布、最短路径分布等。
  2. 收敛性检查:

    • 关键问题: 观察到的数据是否位于模拟数据的中心。
    • 收敛性诊断: 通过检查模拟数据的轨迹图(Trace Plots)和分布图(Distribution Plots)来评估模型是否收敛。

7. 总结

  • ERGM 是一种灵活的网络建模工具,能够通过子图统计量描述网络结构。
  • 模型参数 的解释类似于逻辑回归模型,参数的正负表示子图统计量对网络概率的影响。
  • 模型退化 是 ERGM 建模中的常见问题,通过引入几何加权传递性效应可以避免退化。
  • 拟合优度评估 是模型验证的关键步骤,通过模拟数据与观察数据的比较来评估模型的拟合效果。

以下是基于《Social Network Analysis》第六课课件的详细笔记,涵盖了所有内容,包括理论、方法、数学定义和公式。笔记按照课件的结构进行组织,确保全面且详细,并使用 $$ 的 LaTeX 语法标记数学公式。


社会网络分析第六课笔记

1. 多重网络(Multiplex Networks)

  1. 多重网络的定义:

    • 多重网络是指在同一组节点之间存在多种类型的关系(如友谊、敌对、信任等)。
    • 示例:
      • 友谊敌对浪漫关系信任声誉八卦伙伴等。
  2. 多重网络的重要性:

    • 人类关系是复杂的,单一类型的关系无法全面描述社会网络。
    • 多重关系相互交织,忽略其他类型的关系可能导致对网络本质的误解。
      • 例如,借贷网络仅显示银行的中心地位,忽略了其他类型的关系。
  3. 历史案例:

    • Padgett & Ansell (1993): 通过分析佛罗伦萨的多重关系(婚姻、经济合作等)研究权力斗争。

2. 多重网络的分析方法

  1. 多重网络的简化:

    • 聚类分析(Cluster Analysis): 通过聚类分析找到相似的关系类型,并将其合并。
    • 多维尺度分析(Multidimensional Scaling, MDS): 通过可视化方法展示不同关系类型之间的相似性。
      • 公式:
        $$
        \text{Jaccard Index} = \frac{n_{11}}{n_{11} + n_{01} + n_{10}}
        $$
        其中:
        • $ n_{11} $ 是在两个网络中都有边的数量。
        • $ n_{01} $ 和 $ n_{10} $ 是在一个网络中有边,另一个网络中没有边的数量。
  2. 多重网络的合并:

    • 通过层次聚类(Hierarchical Clustering)将相似的关系类型合并,简化网络分析。

3. 多重网络的描述性统计

  1. 低密度(Low Density):

    • 多重网络中的每种关系类型通常具有较低的密度。
    • 示例:
      • 友谊信任等关系的平均出度较低。
  2. 高互惠性(High Reciprocity):

    • 某些关系类型(如友谊)具有较高的互惠性,但并非所有关系类型都如此。
    • 示例:
      • 友谊的互惠性较高,而敌对关系的互惠性较低。

4. 多重网络的建模

  1. 指数随机图模型(ERGM):

    • ERGM 可以用于建模多重网络,通过引入跨网络效应(Cross-Network Effects)来描述不同类型关系之间的相互影响。
    • 跨网络效应:
      • 共现(Co-occurrence): 两种关系类型在同一对节点上同时出现的概率。
      • 交换(Exchange): 一种关系类型的出现会影响另一种关系类型的出现。
      • 混合传递性(Mixed Triadic Closure): 不同类型关系之间的传递性闭合。
  2. ERGM 示例:

    • 信任(Trust)工作困难(Difficulty in Work)网络:
      • 共现效应(Entrainment): 负效应,表示信任和工作困难关系不太可能同时出现。
      • 交换效应(Exchange): 正效应,表示信任关系和工作困难关系之间存在交换。
      • 入二星效应(In-Two-Star Effect): 正效应,表示节点的入度在两种关系类型之间存在相关性。

5. 负向关系与结构平衡(Negative Ties and Structural Balance)

  1. 结构平衡理论(Structural Balance Theory):

    • Fritz Heider 的平衡理论: 描述个体、对象和观察者之间的关系平衡。
    • Cartwright & Harary 的结构平衡理论: 将平衡理论扩展到社会网络,描述三元组中的关系平衡。
      • 平衡三元组: 所有关系均为正向,或两个负向关系和一个正向关系。
      • 不平衡三元组: 其他情况。
  2. 结构平衡定理:

    • 一个符号图(Signed Graph)是平衡的,当且仅当它可以被划分为最多两个子图,子图内部只有正向关系,子图之间只有负向关系。
    • 公式:
      $$
      \text{Balance} \iff \text{Partition into two subgraphs with positive ties within and negative ties between}
      $$
  3. 结构平衡的应用:

    • 国际关系: 冷战期间的联盟结构、二战期间的联盟结构等。
    • 群体结构: 负向关系通常位于群体之间,正向关系位于群体内部。

6. 负向关系的挑战

  1. 负向关系的持久性:

    • 负向关系在社会网络中往往是持久的,且难以消除。
    • 张力管理(Tension Management): 社会网络中的个体通过管理负向关系来避免网络的完全崩溃。
  2. 结构洞与负向关系:

    • 负向关系通常位于群体之间,可能成为结构洞(Structural Holes)的桥梁。
    • 结构洞理论(Structural Hole Theory): 负向关系可能为个体提供中介机会,但也可能增加网络的张力。

7. 总结

  • 多重网络是描述复杂社会关系的重要工具,通过分析不同类型的关系可以更全面地理解社会网络。
  • ERGM 可以用于建模多重网络,通过跨网络效应描述不同类型关系之间的相互影响。
  • 结构平衡理论 提供了分析正向和负向关系的框架,负向关系通常位于群体之间,正向关系位于群体内部。
  • 负向关系的持久性张力管理 是社会网络中的重要挑战,负向关系可能为个体提供中介机会,但也可能增加网络的张力。

好的!以下是第7课的更详细笔记,涵盖了随机行动者导向模型(Stochastic Actor-Oriented Model, SAOM)的核心概念、数学定义、应用示例以及模型估计和检验的详细步骤。笔记会尽量详细,确保不遗漏重要的数学定义和理论部分。


社会网络分析:网络动态建模(Modelling Network Dynamics)

1. 为什么需要建模网络动态?

  • 研究问题:通常从网络特征与个体特征之间的关联开始。
    • 例如:受欢迎的学生是否更容易参与高风险行为?南欧学生是否比北欧学生有更多的朋友?
  • 横截面分析:可以使用指数随机图模型(ERGM)来分析这些关联,但无法解释“为什么”和“如何”发生。
  • 动态机制:解释网络变化的机制通常是动态的,例如:
    • 同质性选择(Homophily):学生倾向于与同种族的学生建立友谊。
    • 地理邻近性:学生倾向于与住在附近的学生建立友谊。
    • 关系破裂:跨种族的关系更容易破裂。

2. 如何建模网络动态?

  • 统计方法:需要控制不同效应之间的相互影响。
  • 纵向数据:需要将前因与后果联系起来。
  • 社会中心网络方法:选择机制只能在知道所有候选人的情况下进行研究。
  • 随机行动者导向模型(SAOM):由Snijders于1996年提出,用于处理纵向网络数据。

3. SAOM的基本假设

假设1:行动者导向的视角

  • 行动者是模型的核心:网络变化是由行动者的决策驱动的。
  • 两个基本模型组件
    1. 速率函数(Rate Function):行动者何时可以做出决策?
      • 模型化行动者做出网络变化的机会频率。
    2. 目标函数(Objective Function):行动者做出什么决策?
      • 模型化行动者创建和维护哪些关系。

假设2:可分解性(Decomposability)

  • 离散时间观测:假设通过未观察到的连续时间过程相关联。
  • 最小变化(Ministeps):网络变化被分解为尽可能小的变化步骤。
    • 例如:两个网络之间只有一个关系变量发生变化。

4. SAOM的数学定义

速率函数(Rate Function)

  • 模型化行动者 ( i ) 做出网络变化的速度。
  • 数学公式:
    [
    \lambda_i(x) = \sum_{k} p_k r_{ik}(x)
    ]
    • ( r_{ik}(x) ):行动者 ( i ) 在网络 ( x ) 中的邻居统计量。
    • ( p_k ):模型参数,表示该统计量是否与更频繁的网络变化相关。

目标函数(Objective Function)

  • 模型化网络状态 ( x ) 对行动者 ( i ) 的吸引力。
  • 数学公式:
    [
    f_i(x) = \sum_{k} \beta_k s_{ik}(x)
    ]
    • ( s_{ik}(x) ):行动者 ( i ) 在网络 ( x ) 中的邻居统计量。
    • ( \beta_k ):模型参数,表示该统计量是否被行动者追求(( \beta_k > 0 ))或避免(( \beta_k < 0 ))。

5. 常用的结构效应统计量

  • 出度效应(Outdegree Effect):行动者倾向于保持一定数量的出度关系。
    [
    s_i^{\text{outdeg}} = \sum_j x_{ij}
    ]
  • 互惠效应(Reciprocity Effect):行动者倾向于互惠关系。
    [
    s_i^{\text{recip}} = \sum_j x_{ij} x_{ji}
    ]
  • 传递性效应(Transitivity Effect):行动者倾向于形成传递性三元组。
    [
    s_i^{\text{tr.trip}} = \sum_{jk} x_{ij} x_{jk} x_{ik}
    ]

6. 行动者属性相关的效应

  • 发送者效应(Sender Effect):某些属性使行动者更倾向于发送关系。
    [
    \beta_e \sum_j x_{ij} v_i
    ]
  • 接收者效应(Receiver Effect):某些属性使行动者更倾向于接收关系。
    [
    \beta_a \sum_j x_{ij} v_j
    ]
  • 同质性效应(Homophily Effect):行动者倾向于与具有相似属性的其他行动者建立关系。
    [
    \beta_s \sum_j x_{ij} I{v_i = v_j}
    ]

7. SAOM的参数估计与收敛

  • 蒙特卡洛模拟:通过模拟网络变化来估计模型参数。
  • 收敛性检验:通过比较模拟数据与观测数据的拟合度来评估模型是否收敛。
    • 收敛标准:( t_{conv} ) 值应接近0(通常 ( -0.1 < t_{conv} < +0.1 ))。

8. 模型拟合与假设检验

  • 参数显著性检验:通过计算参数与标准误差的比值来检验参数的显著性。
    [
    \frac{\beta_k}{\text{st.err.}(\beta_k)}
    ]

    • 该比值近似服从标准正态分布,可用于检验 ( H_0: \beta_k = 0 )。
  • 模型拟合:通过检查未包含在模型中的网络特征来评估模型的拟合度。

    • 例如:检查入度分布是否与观测数据一致。

9. 网络与行为的共演化

  • 网络依赖行为:个体特征可以影响网络结构(例如:同质性选择)。
  • 行为依赖网络:网络结构可以影响个体特征(例如:社会影响)。
  • 共演化模型:同时建模网络和行为的变化,允许分离选择与影响机制。

10. 选择与影响的混淆问题

  • 同质性偏差(Homophily Bias):网络中的连接个体往往在行为上更相似。
  • 竞争解释
    1. 选择机制:个体基于相似性选择关系。
    2. 影响机制:个体根据其社交环境调整行为。
  • 控制混淆因素:通过测量和控制共享的社会背景来减少未观察到的混淆因素。

11. 示例:MBA学生的建议寻求网络

  • 数据:75名MBA学生,3个时间点的建议寻求网络和考试成绩。
  • 假设
    1. 朋友之间更可能寻求建议(同质性选择)。
    2. 成绩较低的学生更可能寻求建议(发送者效应)。
    3. 成绩较高的学生更可能被寻求建议(接收者效应)。
  • 结果:所有假设均得到支持。

12. 总结

  • SAOM 是一种强大的工具,用于建模网络动态和行为共演化。
  • 通过分离选择与影响机制,SAOM 可以帮助解释网络变化的动态过程。
  • 模型参数通过蒙特卡洛模拟估计,并通过拟合度检验评估模型的合理性。

好的!以下是根据你提供的课件内容整理的详细笔记,涵盖了社会网络分析中的角色分析和块模型(Blockmodeling)的核心概念、数学定义和应用。笔记会尽量详细,确保不遗漏重要的数学定义和理论部分。

社会网络分析:角色分析与块模型(Role Analysis and Blockmodeling)**

1. 网络作为矩阵的初步介绍

  • 节点(Nodes)/顶点(Vertices)/行动者(Actors):网络中的个体或实体。
  • 边(Edges)/关系(Relations)/二元组(Dyads):节点之间的连接。
  • 数据格式
    • 节点列表(Nodelist):列出所有节点。
    • 社会矩阵(Sociomatrix):矩阵形式表示节点之间的关系。
    • 边列表(Edgelist):列出所有边的连接关系。

社会矩阵的读取

  • 社会矩阵是一个 ( n \times n ) 的矩阵,其中 ( n ) 是节点的数量。
  • 矩阵中的每个元素 ( a_{ij} ) 表示节点 ( i ) 和节点 ( j ) 之间是否存在关系(通常用 1 表示存在关系,0 表示不存在)。
  • 无自环(No self-ties):矩阵对角线上的元素 ( a_{ii} ) 通常为 0,表示节点不与自身相连。

对称性(Symmetric)

  • 如果网络是无向的(即关系是双向的),社会矩阵是对称的,即 ( a_{ij} = a_{ji} )。

2. 角色分析的基本概念

  • 社会角色(Social Roles)

    • 社会角色是指在社会结构中,个体所扮演的角色(如 CEO、员工、老师、学生等)。
    • 每个角色都有其特定的行为、期望和责任。
    • Harrison White 提出,角色可以通过纯粹的关系形式来定义,社会结构是由多重人际关系的网络构成的。
  • 角色与位置的关系

    • 角色是通过互动模式定义的,而不是通过个体的属性。
    • 例如,在医院中,医生、护士、行政人员和患者有不同的互动模式,这些模式定义了他们的角色。

3. 块模型(Blockmodeling)

  • 块模型的目标
    • 将网络划分为若干个“块”(blocks),每个块代表一组在结构上等价的节点。
    • 通过块模型,可以将复杂的网络简化为更简单的结构,便于分析和理解。

块模型的类型

  • 完全块(Complete Block, com):块内的所有节点之间都有连接。
  • 空块(Null Block, nul):块内的节点之间没有任何连接。
  • 规则块(Regular Block, reg):块内的节点至少有一个出边和一个入边。

块模型的数学定义

  • 结构等价性(Structural Equivalence)

    • 两个节点在结构上等价,当且仅当它们与其他节点的连接模式完全相同。
    • 数学上,节点 ( i ) 和节点 ( j ) 是结构等价的,如果对于所有节点 ( k ),都有 ( a_{ik} = a_{jk} ) 且 ( a_{ki} = a_{kj} )。
    • 结构等价性通常用于生成完全块和空块。
  • 规则等价性(Regular Equivalence)

    • 两个节点在规则上等价,当且仅当它们连接到其他规则等价的节点。
    • 数学上,节点 ( i ) 和节点 ( j ) 是规则等价的,如果它们连接到相同的等价类中的节点。
    • 规则等价性通常用于生成规则块。
  • 广义等价性(Generalized Equivalence)

    • 广义等价性允许更灵活的定义,块可以是完全块、空块、规则块,或其他类型的块(如行规则块、列规则块等)。

4. 块模型的构建步骤

直接方法(Direct Blockmodeling)

  1. 初始分区:随机将节点分配到若干个位置(positions)。
  2. 局部优化:通过移动或交换节点来优化分区,使得块模型与理想块类型(如完全块、空块等)的拟合度最高。
  3. 拟合度评估:使用拟合度函数(如汉明距离、加权相关系数等)评估块模型的质量。
  4. 块模型的生成:根据最优分区生成块模型。

间接方法(Indirect Blockmodeling)

  1. 计算等价性度量:首先计算节点之间的结构等价性(或其他等价性度量)。
  2. 生成相似性矩阵:根据等价性度量生成节点之间的相似性矩阵。
  3. 聚类分析:使用层次聚类等方法将节点划分为若干个等价类。
  4. 生成块模型:根据聚类结果生成块模型。

5. 块模型的数学工具

汉明距离(Hamming Distance)

  • 汉明距离用于衡量两个块模型之间的差异。
  • 对于两个块模型 ( A ) 和 ( B ),汉明距离定义为两个矩阵中不一致的元素数量。
  • 数学公式:
    [
    H(A, B) = \sum_{i=1}^n \sum_{j=1}^n |a_{ij} - b_{ij}|
    ]
    其中 ( a_{ij} ) 和 ( b_{ij} ) 分别是矩阵 ( A ) 和 ( B ) 的元素。

加权相关系数(Weighted Correlation Coefficient)

  • 加权相关系数用于衡量块模型与理想块类型之间的拟合度。
  • 数学公式:
    [
    \rho = \frac{\sum_{i=1}^n \sum_{j=1}^n w_{ij} (a_{ij} - \bar{a})(b_{ij} - \bar{b})}{\sqrt{\sum_{i=1}^n \sum_{j=1}^n w_{ij} (a_{ij} - \bar{a})^2 \sum_{i=1}^n \sum_{j=1}^n w_{ij} (b_{ij} - \bar{b})^2}}
    ]
    其中 ( w_{ij} ) 是权重,( \bar{a} ) 和 ( \bar{b} ) 分别是矩阵 ( A ) 和 ( B ) 的均值。

6. 块模型的应用

核心-外围结构(Core-Periphery Structure)

  • 核心-外围结构是一种常见的网络结构,其中核心节点之间高度连接,而外围节点只与核心节点连接。
  • 通过块模型,可以将网络划分为核心和外围两个块,并分析它们之间的关系。

社区检测(Community Detection)

  • 社区检测是块模型的一种应用,用于识别网络中的社区结构。
  • 常用的算法包括模块化优化算法(Modularity Optimization),通过最大化模块化值来识别社区。

7. 块模型的软件工具

  • Socnet.se:一个用于直接块模型分析的命令行工具,支持结构等价性、规则等价性和广义等价性分析。
  • R 脚本:可以使用 R 语言进行间接块模型分析,支持层次聚类和块模型的生成。

8. 总结

  • 块模型和角色分析是理解复杂网络结构的有力工具。
  • 通过将网络划分为等价的位置,并分析这些位置之间的关系模式,可以揭示网络的功能解剖学。
  • 数学工具如汉明距离和加权相关系数用于评估块模型的拟合度,确保分析的准确性。

如果你有任何具体的问题或需要进一步的解释,请告诉我!


.

.