网络空间一如物理世界,所有行为背后都可以看见人的影子,本书给出的即是一种网络行为的洞察术,书中具体研究网络行为背后是谁、是何居心以及此行为有无规律、可否预测等的理论和方法。
本书共9章,在总体概论的基础上,按照分析过程,对网络行为数据获取、数据聚合、数据处理、网络用户资源测绘、事件检测与评估、事件溯源、行为预测等几部分内容进行了体系化的讲解,并给出了基于行为分析的网络智慧治理方法。
本书例程翔实,体系完整,既可作为大数据、人工智能、网络空间安全领域的教材,也可作为网络行为分析专业研究者的工具书和参考书。
善恶同源,驾之者胜。当今世界,网络已经成为如同空气和水一样几乎不可或缺的存在,同时,网络的虚拟性也使其成为各种恶行滋生泛滥的空间:骚扰、诈骗、谣言、虚假评论、不良信息、反动宣传、网络渗透、网络群体性事件、网络病毒,凡此种种,危害百姓利益,破坏社会稳定甚至威胁国家安全。习总书记指出,网络空间天朗气清、生态良好,符合人民利益。网络空间的治理,不但需要全社会共同参与、共同努力,更需要技术手段的支撑和保障。网络空间安全的重要性已为全社会所公认,相关理论与技术也全面开花、枝繁叶茂。
凡是行过,皆有痕迹。网络世界,纵然表象繁杂缭乱,技术五花八门,其深层的背后仍然是物理世界鲜活的人,因而其本质与物理世界并无二致,“行”则有“痕”,透过“痕”则可以看清人。网络空间的“行”即网络行为,其“痕”即为网络行为数据。网络行为既是网络世界的重要组成部分,也是网络世界存在的理由。网络空间自身构成虚拟世界,但是由于网络背后的主角和驱动力是人,因而其必定与物理世界建立连接,构成广义上的网络空间。在广义的网络空间中,从衣食住行到精神需求甚至于其他的方方面面,物理世界的人都可以通过具体的网络行为得到解决和满足。通过对这些行为数据的分析,不难理解行为者的动机,甚至可以通过历史规律的分析对未来行为进行预测,这就是网络行为分析的初衷。网络行为分析技术近年来蓬勃发展,已发展成为网络空间安全的重要支撑。
有道无术,术尚可求;有术无道,止于术。网络分析技术的快速发展急需与之相适应的科学理论,然而截至目前,尚缺乏全面、统一的网络行为分析专著。我们在近年来的项目实践和学术研究中发现,网络大数据及人工智能的很多应用及研究虽名目各异,然本质和方法上殊途同归,深感统一论述之必要。基于统一论述的初衷,本书搜聚当前最热点的网络行为分析类应用,以它们为起始研究对象,针对它们做共性分析,建立网络行为分析技术的基本概念和框架,进而按照网络行为分析的过程,从行为数据获取、数据聚合、数据处理、网络用户资源测绘、事件检测与评估、事件溯源、行为预测等几方面进行了体系化的讲解,最后给出了基于网络行为分析的网络智慧治理方法。
兵无常法,水无常形,运用之妙,存乎一心。本书重点讲述关于行为分析的技术体系、技术原理及技术应用方法,但要正确分析网络行为,仅限于此是远远不够的。技术乃良工之利器,其重要性毋庸置疑,不过任何技术都不是万能仙丹,一试必灵,必须认真考察应用场景对技术的选择性以及技术针对应用场景的主动适应,尤其网络行为分析,其背后是复杂的、活生生的人。“周公恐惧流言日,王莽谦恭未篡时”说的就是识人之难。对网络行为分析来说,除了识人本难,需要从人性角度进行考察外,还要加上前置环节,即行为数据的选取难。人类没有上帝视角,永远无法得到全要素、全周期的行为数据,选取数据时,必须摆脱无关及伪劣数据的牵制、迷惑和干扰,否则如同缘木求鱼,结论可能与真相差之千里。可以说,行为数据选择的代表性和准确性很大程度上决定了行为分析的有效性。
本书的内容组织和形式设计,试图以身边的热点应用为起点,以容易理解的方式引导读者建立关于行为分析的整体概念,包括通用定义和理论框架,进而以具体的例程贯穿行为分析各个环节的讲解,以帮助读者对照概念开展实操以深化理解。其中,全书的章节内容规划和整体统筹由于洪涛负责,第1章由于洪涛、吴翼腾编写,第2、4章由李邵梅编写,第3、8章由吴翼腾编写,第5章由黄瑞阳、李倩编写,第6章由吴翼腾、曲强编写,第7章由吴铮、丁悦航编写,第9章由曲强编写。另外,赵秀明、胡新棒、郑洪浩、李继中等为本书的绘图、审校、排版付出了大量心血,在此特真诚感谢他们的辛苦付出和认真态度。
本书终于能够付诸出版,感触良多,我要感谢所有给予我智慧的伟大的学者们,还要感谢职业生涯中给予我真诚的帮助、启发以及值得回忆和自省的人和事。特别地:
感谢已去世多年的父亲,他曾经当过多年的村支书,沉默寡言,很少过问我的学习和工作,但是他说过的一句话让我永生难忘,那就是在他供我们姐弟几个上学、遭遇亲邻不解甚至嘲讽时说的“砸锅卖铁也要供孩子们上学”。正是这句话让我们姐弟几个都走出农门、接受了高等教育,也正是这句话,让他负债劳累多年,却几乎没有享受过生活。父亲,我时常在梦中看到您慈祥的微笑!
感谢我的母亲,她只是一个普通的农民,几乎没有接受过什么教育,但她是十里八村有名的记忆力好、识字多的人。在她八十多岁的时候,仍然会偶尔戴上老花镜颤颤巍巍地给孙女写上一两句祝福的话,也会在遇到不认识的字时向别人虚心请教。她有着那个年代妇女共有的勤劳能干的品质,而且富有生活智慧,印象中当年她总能把贫穷的家打理得整洁温馨。她常常会用“但做好事莫问前程”之类的俗语,告诉我们做个好人,做个善良的人。母亲很宽容,对所有的人,其中也包括我,她从不计较我没在她膝前尽孝。今年疫情期间母亲不幸离世,即使在她生命最后的时间里,仍然时常催我早点回单位,好好工作。寸草之心,何以报母爱春晖!
在此特别感谢我的三个姐姐,这些年来,她们毫无怨言、默默付出,照顾父亲母亲,总是告诉我不用牵挂家里,又时常提醒我工作的时候要劳逸结合、保重身体。有她们在,我有一种一直没有长大的错觉,不用操心家里的事,也没有在父母前尽到我的孝心。她们的爱如冬日暖阳,温柔和煦。我只想在此告诉她们,我一直幸运于做她们的弟弟!
衷心感谢我的爱人,她在兢兢业业完成自己工作的同时,无私地操持着全家的衣食起居,默默承担着单调、枯燥、琐碎的家务劳动。她一直包容我的缺点,还用实际行动理解并支持我的工作,会在我忙得晕头转向的时候提醒我给母亲打电话、陪母亲唠唠家常,也会在我苦恼烦躁时给予我耐心的倾听和安慰,还会在很多问题上与我交流看法,从新的视角给我中肯的建议、启发性的思路甚至完美的答案。她的鼓励和支持,是我完成此书最大的动力!
感谢我的女儿,她很小就独自踏上异国求学之路,用瘦小柔弱的肩膀扛下了一个人在外的生活和学习压力。尤其是2020年的新冠疫情期间,她自己谋划、克服重重阻力,辗转第三国回到澳大利亚,并且在澳大利亚疫情爆发后,一边坚持学业,一边“深挖洞、广积粮”,整个过程,让我见识并且感动于她的独立、努力和坚强。自强者,人恒强之,谨以此书与她共勉!
感谢西安电子科技大学出版社的李惠萍老师,她热情地支持我编写此书,且在写作过程中给予我不厌其烦的悉心指导。
由于作者水平有限,书中难免存在不足与纰漏之处,敬请广大读者不吝指正。
第1章 网络行为分析概述 1
1.1 引言 1
1.2 网络行为分析的基本概念和实现过程 2
1.3 网络行为分析的八类热点应用 3
1.3.1 用户行为数据聚合 3
1.3.2 社交网络群体发现 5
1.3.3 网络机器人行为分析与异常检测 7
1.3.4 信息传播建模 8
1.3.5 入侵检测 9
1.3.6 用户画像 9
1.3.7 推荐系统 11
1.3.8 点击率预测 12
1.4 网络行为分析的共性方法 13
1.4.1 基于结构化属性信息的方法 14
1.4.2 基于文本信息的方法 14
1.4.3 基于图像信息的方法 15
1.4.4 基于网络结构信息的方法 16
1.4.5 基于轨迹信息的方法 16
1.5 常用方法对比分析 17
1.5.1 行为分析方法的实现过程 18
1.5.2 特征建模的有效性和可解释性 18
1.5.3 机器学习模型的安全性 19
1.5.4 机器学习方法对计算资源的
依赖性 20
1.6 网络行为分析与网络智慧治理 20
本章小结 22
本章参考文献 23
第2章 网络空间行为分析数据采集技术 24
2.1 基于爬虫的网络数据采集 24
2.1.1 静态页面的数据爬取 25
2.1.2 动态页面的数据爬取 28
2.1.3 滑块验证登录 33
2.1.4 字体二次编码 41
2.1.5 Scrapy爬虫简介 47
2.1.6 基于Scrapy-Redis的分布式爬虫 52
2.2 网站分析数据的采集 56
2.2.1 基于Web日志的采集方式 56
2.2.2 基于JavaScript标记的方式 57
2.2.3 基于第三方平台的网站数据
采集方式 59
2.3 全量流量采集 61
2.3.1 基于SNMP的流量采集 61
2.3.2 基于端口镜像的流量采集 62
2.3.3 基于探针的流量采集 63
2.3.4 基于分光器的流量采集 63
2.3.5 基于NetFlow的流量采集 64
2.3.6 基于sFlow的流量采集 65
本章小结 66
本章参考文献 66
第3章 网络空间行为数据聚合技术 67
3.1 用户行为数据聚合的基本概念 67
3.1.1 问题描述 69
3.1.2 技术框架 70
3.1.3 相似度计算 71
3.1.4 账号匹配 74
3.1.5 评价指标 78
3.2 基于网络结构信息的行为数据
聚合技术 79
3.2.1 基于隐藏标签节点挖掘的方法 80
3.2.2 基于网络表示学习的方法 84
3.3 基于属性文本信息的行为
数据聚合技术 88
3.3.1 基于属性信息熵权决策的方法 89
3.3.2 基于模糊积分的属性文本
信息融合方法 92
3.4 基于用户轨迹信息的行为
数据聚合技术 97
3.4.1 基于轨迹位置访问顺序特征的
方法 97
3.4.2 基于时空轨迹顺序特征表示的
方法 103
本章小结 108
本章参考文献 108
第4章 网络行为数据的提取、处理和管理 109
4.1 网络协议解析 109
4.1.1 pcap文件格式 109
4.1.2 基于WireShark的网络协议解析 111
4.1.3 基于Scapy的网络协议解析 115
4.2 数据清洗 116
4.2.1 去除/填充有缺失的数据 117
4.2.2 逻辑错误清洗 119
4.2.3 关联性验证 119
4.3 特征数据的处理 120
4.3.1 定性特征的处理方法 120
4.3.2 时间型特征的处理方法 122
4.3.3 文本型特征的处理方法 122
4.3.4 组合特征分析 123
4.4 特征选取 124
4.4.1 过滤式(Filter) 124
4.4.2 包裹式(Wrapper) 125
4.4.3 嵌入式(Embedded) 125
4.5 网络行为分析的特征提取案例 126
4.5.1 数据理解与分析 126
4.5.2 特征预处理 128
4.5.3 特征联想 128
4.5.4 特征提取 130
4.5.5 特征选择 131
4.6 用户行为特征管理 131
4.6.1 存储机制 131
4.6.2 查询机制 133
4.6.3 定时更新机制 134
本章小结 136
本章参考文献 136
第5章 基于行为分析的网络用户资源测绘 137
5.1 全局性网络用户资源测绘 137
5.1.1 用户通联网络的构建 138
5.1.2 用户通联网络拓扑结构分析 139
5.1.3 用户通联网络抗毁性分析 141
5.1.4 用户群组发现 145
5.2 用户个性化深度测绘 147
5.2.1 通信用户多维度特征建模 147
5.2.2 通信用户画像构建技术 151
本章小结 153
本章参考文献 154
第6章 事件检测与事件状态评估 155
6.1 网络舆情事件检测 155
6.1.1 虚假内容检测 156
6.1.2 水军账户检测 160
6.1.3 新兴事件检测 162
6.2 事件状态评估 163
6.2.1 突发事件分析 164
6.2.2 电信诈骗分析 164
6.2.3 舆情事件分析 166
6.2.4 事件状态评估的层次分析法 168
本章小结 173
本章参考文献 173
第7章 网络事件溯源 174
7.1 图像视频理解 174
7.1.1 基于特征的图像理解方法 175
7.1.2 深度学习方法生成图像描述 178
7.1.3 行人身份识别 181
7.1.4 视频理解 194
7.2 单一自媒体事件信息溯源 195
7.2.1 微博类信息溯源的概念 195
7.2.2 影响力计算及意见领袖发现 196
7.2.3 微博类信息传播模型 197
7.2.4 微博类信息溯源的方法分类 197
7.3 多源媒体事件信息溯源 201
7.3.1 多源媒体信息溯源的概念 201
7.3.2 多源媒体信息的统一表达 201
7.3.3 多源媒体信息的联合溯源方法 202
本章小结 204
本章参考文献 204
第8章 网络用户行为预测 205
8.1 链路预测技术 205
8.1.1 链路预测方法概述 206
8.1.2 基于静态信息的链路预测技术 211
8.1.3 基于时序信息的链路预测技术 216
8.2 消费行为预测和消息精准推送 221
8.2.1 消费预测和消息推送的
协同推荐技术概述 222
8.2.2 以用户为中心的协同推荐技术 226
8.2.3 以项目为中心的协同推荐技术 231
本章小结 236
本章参考文献 236
第9章 网络空间智慧治理 237
9.1 柔性治理技术 238
9.1.1 诱导图片生成 239
9.1.2 诱导文本生成 243
9.1.3 诱导音视频生成 249
9.1.4 诱导网络生成 252
9.1.5 柔性治理技术小结 254
9.2 刚性治理技术 254
9.2.1 小范围隔离治理 255
9.2.2 大范围阻断治理 256
本章小结 257
本章参考文献 257