掌握数据可视化技术是未来工作和学习的必备能力,是展示理念和成果的重要手段。阅读并完成本书的实践,你将快速地学会数据获取、清洗、分析、可视化及发布的完整流程。本书以丰富的实践案例解析数据可视化的制作理念和具体方法,紧密围绕当前数据可视化领域的实际需求,全面介绍数据可视化的概念和技巧。本书包含基础知识、数据获取、数据清洗、数据分析、可视化基础和原则、数据可视化工具和可视化作品发布等内容,基于具体案例多角度启发和引导读者的创新思维,增强读者对抽象数据的把握及综合可视化能力的提升。本书内容通俗易懂,简明实用,配套的教学辅助资料可免费下载。本书适合零编程基础的数据可视化从业者和高校师生阅读,有一定工作经验的数据可视化工程师也可以从本书中学到大量实用的技能。
刘英华,中国社会科学院大学副教授,国家自然基金《基于大规模复杂结构知识库的知识发现机理、模型与算法研究》、国家自然基金《基于多关系的模糊认知图挖掘模型、算法与评价机制研究》项目的主要参与人员。
目 录
第1章 基础知识 1
1.1 模拟和数字化 1
1.2 数模转换 1
1.3 进制 2
1.4 存储单位 3
1.5 因特网 3
1.6 地址和协议 4
1.7 域名和域名系统 6
1.8 网络速率 6
1.9 数据可视化 7
小结 7
习题1 7
第2章 数据获取 8
2.1 知识共享许可协议 8
2.2 搜索数据 9
2.2.1 搜索引擎 10
2.2.2 浏览器 11
2.2.3 搜索指令 11
2.3 主动公开的数据 15
2.3.1 我国政府数据 15
2.3.2 国际组织数据 17
2.3.3 科研机构及第三方数据公司 17
2.4 依申请公开数据 17
2.5 数据众包 18
2.6 抓取工具 18
2.6.1 import.io工具 20
2.6.2 Octoparse工具 23
2.7 Python基础 33
2.7.1 环境配置 33
2.7.2 第一个Python程序 35
2.7.3 变量和运算符 36
2.7.4 条件语句 43
2.7.5 循环语句 45
2.7.6 输入和输出 48
2.7.7 文件的读/写 49
2.8 Beautiful Soup库 51
2.8.1 安装Beautiful Soup 51
2.8.2 使用Beautiful Soup抓取网页数据 52
2.9 图片的获取 56
2.9.1 常用的图片编辑软件 56
2.9.2 图片文件类型 57
2.9.3 图片文件的保存 58
2.10 音频的获取 59
2.10.1 常用的音频编辑软件 60
2.10.2 音频文件类型及保存 61
2.11 视频的获取 62
2.11.1 常用的视频编辑软件 62
2.11.2 视频文件类型 63
2.11.3 视频文件的保存 63
2.12 数据格式转换 64
2.12.1 数字图片的格式转换 65
2.12.2 数字音频的格式转换 67
2.12.3 数字视频的格式转换 68
2.12.4 文件格式转换 68
2.12.5 可机读数据 70
小结 70
习题2 70
第3章 数据清洗 71
3.1 Jupyter Notebook 71
3.1.1 安装Jupyter Notebook 72
3.1.2 启动、关闭notebook服务器 72
3.1.3 保存notebook 75
3.2 Pandas包 75
3.2.1 系列(Series) 75
3.2.2 数据帧(DataFrame) 78
3.3 清洗缺失值 80
3.3.1 检查缺失值 80
3.3.2 删除含缺失值的行或列 82
3.3.3 填充缺失值 82
3.4 清洗格式内容 84
3.4.1 删除字符串中的空格 84
3.4.2 大小写转换 85
3.4.3 规范数据格式 87
3.4.4 字符型数据判断 87
?
3.5 清洗逻辑错误 88
3.5.1 删除重复记录 88
3.5.2 替换不合理值 89
3.6 删除非需求数据 90
3.6.1 删除非需求行 90
3.6.2 删除非需求列 90
3.7 分组、合并和保存 91
3.7.1 分组 91
3.7.2 数据合并 92
3.7.3 保存结果 96
3.8 数据清洗案例 97
3.8.1 案例1 97
3.8.2 案例2 102
小结 104
习题3 104
第4章 数据分析 105
4.1 数据定位 105
4.1.1 了解基本数据 105
4.1.2 使用[ ]定位 107
4.1.3 使用loc[ ]定位 108
4.1.4 使用iloc[ ]定位 110
4.1.5 使用iat[ ]定位 112
4.2 条件筛选和排序数据 113
4.2.1 条件筛选 113
4.2.2 排序和排名 117
4.3 数据的描述性分析 121
4.3.1 describe( )方法 121
4.3.2 众数、均值和中位数 123
4.3.3 数据重塑 124
4.3.4 相关性计算 131
小结 132
习题4 132
第5章 可视化基础和原则 133
5.1 图表 135
5.1.1 图表的种类 135
5.1.2 图表设计原则 142
5.2 色彩暗示 152
5.2.1 色调 152
5.2.2 明度 153
5.2.3 饱和度 154
5.2.4 色彩暗示的综合运用 155
5.3 图表可视化原则 156
5.3.1 “第一眼”原则 156
5.3.2 数据不是敌人 157
5.3.3 删减无关的元素 157
5.3.4 慎用3D图表 159
5.3.5 视觉暗示的使用 160
5.3.6 整体变个体 161
5.3.7 交互图表原则 162
5.3.8 显示上下文 164
5.4 图表可视化的失败案例 165
5.5 设计排版原则 168
5.5.1 顺序 168
5.5.2 标注 171
5.5.3 动画效果 171
5.5.4 分组 173
5.5.5 赋形 173
小结 174
习题5 175
第6章 数据可视化工具 176
6.1 信息图制作工具 176
6.2 可视化工具Gapminder 179
6.3 可视化工具DataWrapper 181
6.4 可视化工具Gephi 188
6.5 可视化工具QGIS 194
6.6 可视化工具ECharts 201
6.6.1 五分钟上手ECharts 201
6.6.2 第一个ECharts作品 202
6.6.3 使用ECharts主题 206
6.7 可视化工具Tableau 207
6.7.1 安装和简介 208
6.7.2 连接数据 209
6.7.3 工作表 209
6.7.4 仪表板 210
6.7.5 故事 211
6.7.6 保存和导出 211
6.8 用Python和R实现可视化 215
小结 217
习题6 218
?
第7章 可视化作品发布 219
7.1 网络基础知识 219
7.2 HTML5基础 220
7.2.1 HTML文档 220
7.2.2 HTML常用标签 221
7.3 CSS3基础 225
7.3.1 内部CSS 225
7.3.2 外部CSS 228
7.4 JavaScript基础 229
7.4.1 直接嵌入HTML使用 230
7.4.2 在HTML中调用 230
7.5 Web应用框架和模板 231
7.5.1 Web应用框架 231
7.5.2 Web模板 233
小 结 234
习 题 7 234
附录A 数据可视化作品 235
附录B 配套教学资源二维码 237
参考文献 238