本书全面地介绍了网络表示学习的基本概念、模型和应用。本书从网络嵌入的背景和兴起开始介绍,为读者提供一个整体的描述;通过对多个代表性方法的介绍,阐述了网络嵌入技术的发展和基于矩阵分解的统一网络嵌入框架;提出了结合附加信息的网络嵌入方法——结合图中节点属性/内容/标签的网络嵌入;面向不同特性图结构的网络嵌入方法——面向具有社区结构的/大规模的/异质图结构的网络嵌入。本书还进一步介绍了网络嵌入的不同应用,如推荐场景和信息扩散预测。本书的最后总结了这些方法和应用,并展望了未来的研究方向。
1.全面揭秘网络表示学习:详细探讨网络嵌入技术的各个层面,从基本概念到各种创新方法,让您全面了解网络表示学习的理论和实践,帮助您构建完整的知识体系。
2.杰出作者团队:作者是清华大学计算机科学系的研究团队,在网络嵌入学习、社会计算、自然语言处理等领域拥有深厚的研究背景和丰富的实践经验。
3.深度解读网络嵌入应用:不仅介绍了网络嵌入的基本框架和方法,还进一步解析了网络嵌入在实际生活中的应用场景,如推荐系统设计和信息传播预测等,让您更深入地了解网络嵌入技术的实用价值。
4.高品质全彩印刷:本书采用全彩印刷,精美的设计及高质量的输出,让您在阅读的过程中享受视觉的盛宴。
杨成,北京邮电大学计算机学院副教授。他分别于 2014 年和 2019 年获得清华大学计算机科学专业学士学位和博士学位。其研究方向包括网络表示学习、社会计算和自然语言处理,在 IJCAI、ACL、ACM TOIS、IEEE TKDE 等top级会议和期刊上发表论文四十余篇,谷歌学术引用近四千次。
刘知远,清华大学计算机科学与技术系副教授。他分别于在 2006 年和 2011 年获得清华大学计算机科学与技术专业学士和博士学位。研究方向是自然语言处理和社会计算,在国际期刊和 IJCAI、AAAI、ACL、EMNLP 等会议上发表了六十余篇论文,谷歌学术应用量超过一万次。
涂存超,清华大学计算机科学与技术系博士后。他分别于 2013 年和 2018 年获得清华大学计算机科学与技术专业学士和博士学位。其研究方向包括网络表示学习、社会计算和法律智能,在 IEEE TKDE、AAAI、ACL、EMNLP 等国际期刊和会议上发表论文二十余篇。
石川,北京邮电大学计算机学院教授。其主要研究方向包括数据挖掘、机器学习和大数据分析。在数据挖掘方面的top级期刊和会议,如 IEEE TKDE、ACM TIST、KDD、WWW、AAAI 和 IJCAI 等,发表了相关论文一百余篇。
孙茂松,清华大学计算机科学与技术系教授,清华大学人工智能研究院常务副院长。其研究方向包括自然语言处理、互联网智能、机器学习、社会计算和计算教育学,在各种top级会议和期刊上发表论文二百余篇,谷歌学术引用量超 1.5 万次,并于 2020 年当选欧洲科学院外籍院士。
第 一部分 网络嵌入介绍
第 1 章 网络嵌入基础 3
1.1 背景 3
1.2 网络嵌入的兴起 4
1.3 网络嵌入的评估 5
1.3.1 节点分类 6
1.3.2 链接预测 6
1.3.3 节点聚类 6
第 2 章 一般图的网络嵌入 9
2.1 代表性方法 9
2.1.1 早期工作 (约 2001~2013) 9
2.1.2 近期工作(2014 至今) 10
2.2 理论:一种统一的网络嵌入框架 13
2.2.1 k 阶邻近度 13
2.2.2 网络表示学习框架 14
2.2.3 对比观察 16
2.3 方法:网络嵌入更新 17
2.3.1 问题形式化 17
2.3.2 近似算法 18
2.4 实验 19
2.4.1 数据集 19
2.4.2 基线方法和实验设置 20
2.4.3 多标签分类 21
2.4.4 链接预测 22
2.4.5 实验分析 22
2.5 扩展阅读 23
第二部分 结合附加信息的网络嵌入
第 3 章 结合节点属性的网络嵌入 27
3.1 概述 27
3.2 方法: 文本辅助 DeepWalk 28
3.2.1 低秩矩阵分解 29
3.2.2 TADW 算法 29
3.2.3 复杂度分析 30
3.3 实验分析 30
3.3.1 数据集 31
3.3.2 TADW 设置 31
3.3.3 基线方法 31
3.3.4 分类器和实验设置 32
3.3.5 实验结果分析 32
3.3.6 案例分析 34
3.4 扩展阅读 34
第 4 章 回顾结合节点属性的网络嵌入:一种基于图卷积网络的视角 37
4.1 基于图卷积网络的网络嵌入 37
4.1.1 图卷积网络 37
4.1.2 基于图卷积网络的属性图嵌入 35
4.1.3 讨论 39
4.2 方法:自适应图编码器 40
4.2.1 问题形式化 40
4.2.2 总体框架 40
4.2.3 拉普拉斯平滑滤波器 41
4.2.4 自适应编码器 43
4.3 实验分析 46
4.3.1 数据集 46
4.3.2 基线方法 46
4.3.3 评估指标和参数设置 47
4.3.4 节点聚类结果 48
4.3.5 链接预测结果 48
4.3.6 GAE 与 LS+RA 49
4.3.7 消融实验 49
4.3.8 k 值的选取 50
4.3.9 可视化 52
4.4 扩展阅读 53
第 5 章 结合节点内容的网络嵌入 55
5.1 概述 55
5.2 方法:上下文感知网络嵌入 56
5.2.1 问题形式化 56
5.2.2 总体框架 57
5.2.3 基于结构的目标 57
5.2.4 基于文本的目标 58
5.2.5 上下文无关的文本表示 58
5.2.6 上下文感知的文本表示 59
5.2.7 CANE 的优化 61
5.3 实验分析 61
5.3.1 数据集 61
5.3.2 基线方法 62
5.3.3 评估指标和实验设置 62
5.3.4 链接预测 63
5.3.5 节点分类 64
5.3.6 案例分析 65
5.4 扩展阅读 66
第 6 章 结合节点标签的网络嵌入 69
6.1 概述 69
6.2 方法:最大间隔 DeepWalk 69
6.2.1 问题形式化 70
6.2.2 基于矩阵分解的 DeepWalk 70
6.2.3 最大间隔 DeepWalk 71
6.2.4 MMDW 的优化 71
6.3 实验分析 73
6.3.1 数据集和实验设置 73
6.3.2 基线方法 73
6.3.3 实验结果和分析 74
6.3.4 可视化 75
6.4 扩展阅读 76
第三部分 面向不同特性图结构的网络嵌入
第 7 章 面向具有社区结构的图的网络嵌入 79
7.1 概述 79
7.2 方法:社区增强的网络表示学习 80
7.2.1 问题形式化 81
7.2.2 DeepWalk 81
7.2.3 社区增强的 DeepWalk 81
7.3 实验分析 84
7.3.1 数据集 84
7.3.2 基线方法 84
7.3.3 评测指标和参数设置 85
7.3.4 节点分类 86
7.3.5 链接预测 86
7.3.6 社区发现 87
7.3.7 发现社区的可视化 87
7.4 扩展阅读 88
第 8 章 面向大规模图的网络嵌入 91
8.1 概述 92
8.2 方法:压缩式网络嵌入 93
8.2.1 问题形式化 94
8.2.2 图划分 94
8.2.3 组映射 95
8.2.4 组聚合 96
8.2.5 目标函数和优化 96
8.3 实验分析 97
8.3.1 数据集 97
8.3.2 基线方法和实验设置 98
8.3.3 链接预测 99
8.3.4 多标签分类 99
8.3.5 可扩展性 102
8.3.6 时间效率 103
8.3.7 不同的图划分算法 104
8.4 扩展阅读 105
第 9 章 面向异质图的网络嵌入 107
9.1 概述 107
9.2 方法:关系结构感知的异质图嵌入 109
9.2.1 问题形式化 109
9.2.2 数据观察 109
9.2.3 基本思想 111
9.2.4 附属关系和交互关系的建模 112
9.2.5 异质图嵌入的统一模型 113
9.3 实验分析 113
9.3.1 数据集 113
9.3.2 基线方法 113
9.3.3 参数设置 114
9.3.4 节点聚类 114
9.3.5 链接预测 115
9.3.6 节点分类 115
9.3.7 变体模型的比较 116
9.3.8 可视化 117
9.4 扩展阅读 118
第四部分 网络嵌入应用
第 10 章 面向社会关系抽取的网络嵌入 123
10.1 概述 123
10.2 方法: 平移网络 124
10.2.1 问题形式化 124
10.2.2 平移机制 124
10.2.3 边表示构建 126
10.2.4 整体模型 127
10.2.5 预测 127
10.3 实验分析 128
10.3.1 数据集 128
10.3.2 基线模型 128
10.3.3 评测指标和实验设置 129
10.3.4 实验结果和分析 129
10.3.5 标签对比 130
10.3.6 案例分析 131
10.4 扩展阅读 131
第 11 章 面向基于位置的社交网络推荐系统的网络嵌入 133
11.1 概述 133
11.2 方法: 网络与轨迹联合模型 135
11.2.1 问题形式化 135
11.2.2 社交网络构建建模 136
11.2.3 移动轨迹生成建模 137
11.2.4 整体模型 141
11.2.5 参数学习 142
11.3 实验分析 143
11.3.1 数据集 143
11.3.2 评估任务与基线方法 144
11.3.3 下一个位置推荐任务实验结果 145
11.3.4 好友推荐任务实验结果 148
11.4 扩展阅读 149
第 12 章 面向信息传播预测的网络嵌入 153
12.1 概述 153
12.2 方法:神经传播模型 155
12.2.1 问题形式化 155
12.2.2 模型假设 156
12.2.3 使用注意力机制提取活跃用户 157
12.2.4 使用卷积神经网络聚合活跃用户表示进行预测 158
12.2.5 整体架构、模型细节和学习算法 159
12.3 实验分析 159
12.3.1 数据集 160
12.3.2 基线模型 160
12.3.3 超参数设置 161
12.3.4 微观级别的传播预测 161
12.3.5 网络嵌入的好处 163
12.3.6 可解释性 164
12.4 扩展阅读 165
第五部分 网络嵌入展望
第 13 章 网络嵌入的未来方向 169
13.1 基于先进技术的网络嵌入 169
13.2 更细粒度场景中的网络嵌入 169
13.3 具有更好的可解释性的网络嵌入 170
13.4 面向应用的网络嵌入 170
参考文献 171