本书介绍了高能物理领域的实验数据存储和管理技术,全面讲解了数据管理体系架构、海量存储系统的设计与实现、跨地域分布式数据管理、面向事例的数据库、数据长期保存与共享等关键技术。特别强调了如何颇髙能物理大科学装置所带来的海量数据管理挑战,包括分布式处理、深度数据挖掘与科学数据的开放共享。通过案例分析和实际应用,展示了科学大数据管理在高能物理研究中的重要性与实际 解决方案。
更多科学出版社服务,请扫码获取。
目录
前言
第1章 科学大数据基础 1
1.1 大数据基本概念 1
1.1.1 大数据产生 1
1.1.2 大数据特点 2
1.1.3 大数据龍 4
1.1.4 科学大数据 4
1.2 高能物理大科学装置 6
1.2.1 大型强子对撞机实验 7
1.2.2 北京谱仪Ⅲ实验 9
1.2.3 大亚湾和江门中微子实验 10
1.2.4 高海拔宇繊观测站 11
1.2.5 中国散列中子源 13
1.2.6 高能同步辐射光源 14
1.3 髙能物理离线数据处理 16
1.3.1 数据处理的基本过程 16
1.3.2 数据存储 16
1.3.3 数据传输 18
1.3.4 计算集群 19
1.3.5 贿计算与分布式计算 20
1.3.6 数据长期保存与开放共享 22
1.4 高能物理科学大数据特点 22
1.5本章小结 24
思考题 24
参考文献 24
第2章 高能物理大数据管理体系 26
2.1 大数据系统架构 26
2.1.1 IT基础设施 26
2.1.2 数据采集与清洗 27
2.1.3 海量数据存储 29
2.1.4 并行数据处理 32
2.1.5 数据分析和挖掘工具 35
2.2 大数据基础设施 36
2.3 数据生命周期管理 38
2.4 高能物理计算平台与发展 42
2.5 本章小结 44
思考题 44
参考文献 44
第3章 存储技术与系统 46
3.1 存储硬件及发展 46
3.1.1 磁盘 46
3.1.2 固态酿 49
3.1.3 磁带 52
3.1.4 光盘 53
3.2 磁盘阵列编码 53
3.2.1 RAID 技术 53
3.2.2 动态磁盘池 57
3.2.3 纠删码 58
3.3 分布式文件系统 60
3.3.1 分布式文件系统的发展 60
3.3.2 文件访语义 63
3.3.3 文件系统设计 64
3.4 磁带管理与分层存储 65
3.4.1 数据读写 66
3.4.2 读写指定位置的文件 66
3.4.3 磁带文件元数据管理 68
3.4.4 磁带库、磁带卷以及磁带驱动器 69
3.4.5 虚拟磁带文件系统 70
3.4.6 分层存储 70
3.5 实际系统剖析 71
3.5.1 Lustre 71
3.5.2 EOS 74
3.6 本章小结 76
思考题 76
参考文献 76
第4章 事例与元数据管理 78
4.1 高能物理事例组织 78
4.1.1 高能物理事例定义 78
4.1.2 事例结构 78
4.1.3 基于事例的高能物理数据分析 80
4.2 事例特征索引 81
4.2.1 正向索引 81
4.2.2 倒排索引 81
4.2.3 高能物理中的事例特征索引 84
4.3 高能物理元数据组织 85
4.3.1 元数据的概念及意义 85
4.3.2 元数据的组织管理方式 86
4.3.3 Bookkeeping系统 86
4.4 斜示系统剖析(EventDB) 87
4.4.1 事例特征抽取 88
4.4.2 事例索引数据库及查询条件归并 89
4.4.3 面向事例的缓存 89
4.4.4 面向事例賺据传输 94
4.4.5 EventDB系统性能分析 95
4.4.6 基于EventDB的事例分析 97
4.5 本章小结 98
思考题 99
参考文献 99
第5章 高能物理大数据处理模式 101
5.1 高通量计算 101
5.1.1 PBS 101
5.1.2 HTCondor 102
5.2 高性能计算 104
5.2.1 SLURM介绍 105
5.2.2 SLURM作业调度 105
5.2.3 SLURM资源管理 106
5.2.4 SLURM作业运行 106
5.3 流式计算 107
5.3.1 实时数据集成工具 108
5.3.2 消息队列模型 111
5.3.3 流式计算过程 113
5.3.4 流式计算系统 115
5.4 交互式计算 116
5.4.1 JupyterLab 117
5.4.2 Kubemetes 118
5.5 本章小结 119
思考题 119
参考文献 119
第6章 高能物理大数据分析工具 121
6.1 数学与统计工具 121
6.1.1 Python简介 121
6.1.2 Julia简介 121
6.1.3 Maxima简介 122
6.2 数据可视化软件 124
6.2.1 ROOT 124
6.2.2 gnuplot 128
6.2.3 Maxima 140
6.2.4 Julia 145
6.2.5 学习资源 149
6.3 粒子物理模拟工具 150
6.3.1 Geant4 简介 150
6.3.2 安装与配置 151
6.3.3 Geant4 IS 程简介 154
6.3.4 学习资源 160
6.4 本章小结 160
思考题 161
参考文献 161
第7章 高能物理云计算 162
7.1 云计算介绍 162
7.1.1 云计算概念 162
7.1.2 虚拟化技术 163
7.1.3 云计算与网格计算 165
7.1.4 高能物理与云计算 166
7.2 髙能物理云计算集群系统 169
7.2.1 KVM虚拟机的性能测试与优化 169
7.2.2 高能物理作业在虚拟机上的性能测试 169
7.2.3 高能物理虚拟集群资源管理平台 170
7.3 弹性计算资源管理调度 172
7.3.1 面向多个高能物理应用的弹性资源管理算法 172
7.3.2 面向高能物理应用的弹性资源管理框架 173
7.4 容器与调度 177
7.4.1 容器技术概述 177
7.4.2 容器与虚拟机 178
7.4.3 容器技术在国内外的应用 180
7.4.4 高能物理容器技术应用 180
7.5 案例介绍 184
7.6 本章小结 185
思考题 185
参考文献 186
第8章 跨地域数据管理技术 188
8.1 网格数据管理 188
8.1.1 数据管理的目标 188
8.1.2 网络数据管理架构 189
8.2 全局数据管理 191
8.2.1 统一命名空间 191
8.2.2 Kademlia算法 193
8.2.3 IPFS 194
8.3 存储资源管理 196
8.3.1 存储资源管理简& 196
8.3.2 SRM定位 197
8.3.3 SRM文件和空间管理 198
8.3.4 SRM的应用示例 199
8.3.5 存储资源记账 200
8.4 数据联盟与数据湖 201
8.4.1 数据联盟 201
8.4.2 数据湖 202
8.5 实际系统剖分、析ff 203
8.5.1 Rucio分布式数据管理系$ 203
8.5.2 Dynafed 208
8.6本章小结 211
思考题 211
参考文献 211
第9章 高能物理数据长期保存与开放 213
9.1 概述 213
9.2 高能物理数据分类 214
9.2.1 数据保存级别 214
9.2.2 数据共享模式 216
9.3 数据长期保存策略 217
9.3.1 数据长期保存目标 218
9.3.2 比特级数据的长期保存 219
9.3.3 计算环境的长期保存 220
9.3.4 分析过程的长期保存 221
9.4 数据标识 222
9.4.1 标识符的组织 222
9.4.2 几种推荐的数据标识系统 223
9.5 数据检索 224
9.5.1 HEPData 224
9.5.2 CERN Open Data 225
9.6 案例分析 225
9.7本章小结 228
思考题 228
参考文献 228
第10章 高能物理大数据中的深度学习应用 230
10.1 深度学习及相关知识 230
10.1.1 深度学习的基本原理 230
10.1.2 基于深度神经网络的分类 232
10.1.3 基于卷积神经网络的分类和预测 .232
10.1.4 基于非监督学习的分类 236
10.2 基于深度学习的数据压缩 238
10.2.1 数据压缩的基本方法 238
10.2.2 基于神经网络的数据压缩 244
10.3 数据驱动的数据存储管理 254
10.3.1 基于监督学习的数据分层管理 254
10.3.2 基于强化学习的自动化调参 264
10.3.3 基于非监督学习的异常检测 269
10.4 本章小结 273
思考题 274
参考文献 274
第11章 前沿技术展望 277
11.1 高性能存储 277
11.1.1 存储硬件雌展 277
11.1.2 固态硬盘存储优化 283
11.1.3 高性能存储开发套件 287
11.1.4 基于闪存的文件系统 290
11.1.5 分布式异构对象存储 294
11.2 可计算存储 297
11.2.1 传统体系架构的挑战 297
11.2.2 可计算存储体系架构 300
11.2.3 可计算存储典型应用 302
11.3 数据组织与管理 305
11.3.1 未来的挑战 305
11.3.2 数据组织 306
11.3.3 数据管理 308
11.3.4 数据访问 309
11.4 本章小结 310
思考题 310
参考文献 311