Posted on 

Social Network Analysis - 4th Lec

社会网络分析课程笔记 - 第4周

1. 小世界网络 (Small Worlds)

1.1 小世界现象

  • 小世界现象:指的是在社交网络中,虽然每个人只认识有限的人,但通过这些有限的连接,任何两个人之间的路径长度通常很短。
  • 六度分隔理论:由Frigyes Karinthy在1929年提出,Stanley Milgram在1967年通过实验验证了这一理论。实验表明,通过熟人传递信件,平均需要6步就能将信件传递到目标人物。

1.2 小世界网络的特征

  • 短平均路径长度:网络中任意两个节点之间的平均路径长度较短。
  • 高聚类系数:网络中的节点倾向于形成紧密的群体,即“朋友的朋友也是朋友”。
  • 低密度:网络中的连接相对稀疏。

1.3 小世界网络模型

  • Watts-Strogatz模型:通过引入随机连接(“捷径”)来模拟小世界网络。模型从高度规则的网络开始,逐步增加随机性,直到达到随机网络。
  • Kasturirangan模型:通过引入“经纪人”角色来模拟小世界网络,经纪人连接不同的群体,从而缩短路径长度。

1.4 小世界网络的应用

  • 创新扩散:小世界网络有助于快速传播信息和创新。
  • 社会影响:在小世界网络中,社会规范、意见等可以迅速传播。
  • 传染病传播:小世界网络可以解释传染病的快速传播。

2. 无标度网络 (Scale-Free Networks)

2.1 无标度网络的特征

  • 幂律分布:无标度网络的度分布遵循幂律分布,即大部分节点的度数较低,少数节点的度数非常高(“枢纽”节点)。
  • 枢纽节点:这些高度连接的节点在网络中起到关键作用,能够快速传播信息或影响。

2.2 无标度网络的生成模型

  • Barabási-Albert模型:通过“优先连接”机制生成无标度网络。新加入的节点更倾向于连接到已经高度连接的节点。

2.3 无标度网络的应用

  • 互联网:互联网的链接结构近似于无标度网络,少数网站拥有大量的链接。
  • 社交网络:社交网络中的“影响力人物”类似于无标度网络中的枢纽节点。

3. 多重回归二次分配程序 (MRQAP)

3.1 为什么使用MRQAP?

  • 观测依赖性:在社交网络中,观测数据(如节点之间的关系)通常不是独立的,传统的回归方法(如OLS)无法处理这种依赖性。
  • MRQAP的优势:通过置换节点来生成随机数据集,从而估计标准误差,解决了观测依赖性问题。

3.2 MRQAP的基本思想

  • 置换节点:通过置换节点的位置来生成多个随机数据集,保持网络结构不变。
  • 生成零分布:通过多次置换生成一个零分布,用于比较实际观测值与随机分布。

3.3 MRQAP的应用

  • QAP相关性:用于检验两个网络矩阵之间的相关性。
  • QAP回归:用于检验一个网络矩阵是否能够预测另一个网络矩阵。

4. 任务总结

4.1 任务1:数据读取与格式转换

  • 目标:读取数据并将其转换为适合分析的格式。
  • 常见方法:使用igraph包读取邻接矩阵或边列表,或直接从GML文件读取数据。

4.2 任务2:处理孤立节点和多组件

  • 目标:识别并处理网络中的孤立节点和多组件。
  • 常见方法:使用igraph::components()函数计算网络的组件,或使用sna::isolates()函数识别孤立节点。

4.3 任务3:网络密度与描述性统计

  • 目标:报告并解释网络的密度,创建包含进一步描述性统计的表格。
  • 常见方法:计算平均度数、标准差、互惠性和传递性等指标。

4.4 任务4:度数分布图

  • 目标:创建度数分布图,并解释观察到的分布。
  • 常见方法:使用直方图或密度图展示度数分布。

4.5 任务5:节点级变量的描述性统计

  • 目标:创建包含节点级变量描述性信息的表格。
  • 常见方法:计算均值、中位数、标准差等统计量。

4.6 任务6:网络可视化

  • 目标:根据节点变量或中心性度量对网络进行可视化。
  • 常见方法:使用igraphggraph包进行网络可视化,并根据节点属性着色。

4.7 任务7:同配性检验

  • 目标:检验网络的同配性,并解释结果。
  • 常见方法:使用assortativity()函数计算同配性系数。

4.8 任务8:网络鲁棒性测量

  • 目标:提出一种测量网络鲁棒性的方法,并论证其有用性。
  • 常见方法:通过节点或边的移除来模拟网络的脆弱性,或考虑平均路径长度的变化。

5. 拓展知识

5.1 小世界网络与随机网络的比较

  • 随机网络:随机网络的聚类系数较低,平均路径长度较短。
  • 小世界网络:小世界网络具有较高的聚类系数和较短的平均路径长度,介于规则网络和随机网络之间。

5.2 无标度网络与随机网络的比较

  • 随机网络:随机网络的度分布近似于正态分布,几乎没有枢纽节点。
  • 无标度网络:无标度网络的度分布遵循幂律分布,存在少数高度连接的枢纽节点。

5.3 MRQAP与传统回归的比较

  • 传统回归:假设观测数据是独立的,无法处理社交网络中的依赖性。
  • MRQAP:通过置换节点生成随机数据集,解决了观测依赖性问题,适用于社交网络分析。

社会网络分析第4周内容分析

第4周的内容主要围绕小世界网络无标度网络多重回归二次分配程序(MRQAP)展开。这些内容不仅涉及社会网络的基本概念,还牵涉到一些重要的数学原理。以下是对这些内容的详细分析,特别是其中涉及的数学原理。


1. 小世界网络 (Small Worlds)

1.1 小世界现象

小世界现象的核心是短平均路径长度高聚类系数。这两个特性使得网络既具有局部紧密连接的特性,又具有全局的快速连通性。

涉及的数学原理:

  • 平均路径长度:网络中任意两个节点之间的最短路径的平均值。公式为:L = \frac{1}{n(n-1)} \sum_{i \neq j} d_{ij}
    其中,(d_{ij}) 是节点 (i) 和节点 (j) 之间的最短路径长度,(n) 是网络中的节点数。

  • 聚类系数:衡量网络中节点的邻居之间是否也相互连接。局部聚类系数 (C_i) 定义为: C_i = \frac{2 \cdot \text{实际存在的边数}}{k_i (k_i - 1)}
    其中,(k_i) 是节点 (i) 的度数。全局聚类系数是网络中所有节点局部聚类系数的平均值。

小世界网络的数学特性:

  • 短路径:小世界网络的平均路径长度 L 与网络规模 n 的关系为: L \sim \frac{\ln n}{\ln k}
    其中,k 是节点的平均度数。
  • 高聚类:小世界网络的聚类系数 (C) 远高于随机网络,通常接近规则网络的聚类系数。

2. 无标度网络 (Scale-Free Networks)

2.1 无标度网络的特征

无标度网络的核心特征是度分布遵循幂律分布,即网络中大部分节点的度数较低,少数节点的度数非常高(“枢纽”节点)。

涉及的数学原理:

  • 幂律分布:无标度网络的度分布 P(k) 满足:P(k) \sim k^{-\gamma}
    其中,\gamma 是幂律指数,通常在 2 < \gamma < 3 之间。幂律分布的特点是“长尾”,即存在少数高度连接的节点。

  • 优先连接机制:Barabási-Albert模型通过优先连接生成无标度网络。新节点连接到已有节点的概率与已有节点的度数成正比:\Pi(k_i) = \frac{k_i}{\sum_j k_j}
    其中,k_i 是节点 i 的度数。

无标度网络的数学特性:

  • 枢纽节点:由于幂律分布的存在,无标度网络中存在少数高度连接的节点,这些节点在网络中起到关键作用。
  • 鲁棒性与脆弱性:无标度网络对随机节点失效具有鲁棒性,但对枢纽节点的攻击非常脆弱。

3. 多重回归二次分配程序 (MRQAP)

3.1 MRQAP的基本思想

MRQAP用于分析网络数据中的依赖性问题。传统的回归方法假设观测数据是独立的,但在网络数据中,节点之间的关系通常不是独立的。MRQAP通过置换节点来生成随机数据集,从而解决依赖性问题。

涉及的数学原理:

  • 置换检验:MRQAP通过置换节点来生成多个随机数据集,保持网络结构不变。具体步骤如下:

    1. 对网络中的节点进行随机置换,生成一个新的网络矩阵。
    2. 计算置换后的网络矩阵与原始网络矩阵之间的相关性或回归系数。
    3. 重复多次,生成一个零分布。
    4. 将实际观测值与零分布进行比较,计算显著性水平。
  • QAP相关性:用于检验两个网络矩阵之间的相关性。公式为:

    1
    r = \frac{\sum_{i,j} (X_{ij} - \bar{X})(Y_{ij} - \bar{Y})}{\sqrt{\sum_{i,j} (X_{ij} - \bar{X})^2 \sum_{i,j} (Y_{ij} - \bar{Y})^2}}

    其中,(X_{ij}) 和 (Y_{ij}) 是两个网络矩阵的元素,(\bar{X}) 和 (\bar{Y}) 是它们的均值。

  • QAP回归:用于检验一个网络矩阵是否能够预测另一个网络矩阵。公式为:

  Y_{ij} = \beta_0 + \beta_1 X_{ij} + \epsilon_{ij}

其中,(\beta_0) 和 (\beta_1) 是回归系数,(\epsilon_{ij}) 是误差项。

MRQAP的数学特性:

  • 解决依赖性问题:通过置换节点,MRQAP能够生成一个零分布,用于比较实际观测值与随机分布,从而解决网络数据中的依赖性问题。
  • 非参数检验:MRQAP是一种非参数检验方法,不依赖于数据的分布假设。

4. 总结

第4周的内容涉及了以下数学原理:

  1. 图论:小世界网络和无标度网络的分析基于图论中的路径长度、聚类系数和度分布等概念。
  2. 概率论:无标度网络的生成模型(如Barabási-Albert模型)涉及概率论中的优先连接机制。
  3. 统计推断:MRQAP通过置换检验和回归分析来解决网络数据中的依赖性问题,涉及统计推断中的非参数检验方法。

这些数学原理为理解小世界网络、无标度网络和MRQAP提供了理论基础,同时也为实际的社会网络分析提供了有力的工具。