本书是数据科学方法及应用系列教材之一。本书融合统计学和数据科学的方法,系统介绍描述统计和探索性数据分析的原理和方法。主要内容包括:指标设计、数据预处理、描述统计量计算、数据可视化、相关分析、关联分析、聚类分析、综合指数分析等。重点介绍数据分析的统计流程和软件实现方法,培养学生理解数据、分析数据的基本能力。
本书将基本理论与应用相结合,实用性、操作性较强,可广泛应用在需要开展数据分析的各个领域。本书采用四模块结构:理论与方法+案例分析+R软件应用(含代码)+思考与练习,并提供第3~8章的在线自测习题,习题内容覆盖主要学习要点,题型包括选择题、填空题、计算题、软件应用题等,帮助学习者检验学习效果。通过扫描二维码获取相关在线资源和习题。
更多科学出版社服务,请扫码获取。
1990年,获云南大学经济学学士学位
1997年,获云南大学统计学硕士学位
2004年-2005年,复旦大学访问学者
2019年,英国普利茅斯大学University of Plymouth访问学者
主要讲授下列课程:经济学基础(一、二),经济学原理,统计学原理,描述统计。(均为统计学本科专业课程)
目录
丛书序
前言
第1章 总论 1
1.1 数据的定义 1
1.2 数据的特点 2
1.3 数据的类型 2
1.4 本书框架介绍 4
1.5 R软件应用 7
初步认识R软件 7
思考与练习 17
第2章 统计指标概述 18
2.1 统计指标的含义 18
2.1.1 指标与统计指标 18
2.1.2 统计指标的特点 19
2.1.3 统计指标的构成要素 20
2.2 统计指标类型 22
2.2.1 根据指标形式和作用分类 22
2.2.2 根据指标值获取方式分类 22
2.2.3 根据指标反映的数量关系分类 22
2.2.4 根据指标数值类型分类 25
2.3 统计指标设计 26
2.3.1 统计指标设计原则 26
2.3.2 统计指标设计步骤 27
2.4 案例分析 29
可持续发展投入产出效率测度指标设计 29
2.5 R 软件应用 31
创建数据对象及读入外部数据 31
思考与练习 43
第3章 数据采集 45
3.1 数据采集渠道 45
3.1.1 调查 45
3.1.2 观测 46
3.1.3 实验 46
3.1.4 网络数据采集 46
3.1.5 手机 APP 数据 47
3.2 数据采集方法及技术 47
3.2.1 抽样调查方法 47
3.2.2 网络数据采集方法 51
3.2.3 APP数据采集方法 53
3.3 案例分析 54
抽样方法的具体应用 54
3.4 R软件应用 59
抽样方法和八爪鱼软件应用 59
思考与练习 67
第4章 数据预处理 69
4.1 数据审核 69
4.1.1 直接来源数据审核 69
4.1.2 间接来源数据审核 70
4.2 数据清洗 71
4.2.1 数据筛选 71
4.2.2 缺失数据处理 72
4.2.3 异常数据处理 74
4.2.4 数据脱敏 77
4.3 数据变换 77
4.3.1 数据编码 77
4.3.2 数据标准化 78
4.4 数据集成 81
4.5 数据归约 81
4.6 案例分析 82
缺失数据插补 82
4.7 R 软件应用 86
数据采集与预处理 86
思考与练习 92
第5章 数据基本特征测度 93
5.1 数据基本特征概述 93
5.2 频数统计 94
5.2.1 频数统计概述 94
5.2.2 频数统计表及编制 94
5.2.3 频数统计表的类型 97
5.3 集中趋势测度.99
5.3.1 几种常见平均数 100
5.3.2 中位数 102
5.3.3 众数 102
5.4 离散程度测度 104
5.5 数据分布形态测度 107
5.5.1 矩 107
5.5.2 偏度与偏度系数 108
5.5.3 峰度 109
5.6 动态趋势测度 109
5.6.1 发展速度 110
5.6.2 增长速度 110
5.7 案例分析 111
R自带数据集iris(鸢尾花)的描述统计指标计算 111
5.8 R软件应用 114
计算描述统计量 114
思考与练习 123
第6章 数据可视化 124
6.1 统计图形的基本要素 124
6.2 数据规模和结构可视化图 125
6.2.1 条形图 125
6.2.2 饼图 127
6.2.3 玫瑰图 128
6.2.4 矩形树图 131
6.2.5 马赛克图 132
6.3 数据分布可视化图 133
6.3.1 直方图 133
6.3.2 箱线图 135
6.3.3 概率密度图 136
6.4 数据变化趋势图 138
6.4.1 点图 138
6.4.2 线图 139
6.5 多维数据可视化 141
6.5.1 雷达图 141
6.5.2 星图 143
6.5.3 脸谱图 144
6.6 文本数据可视化 146
6.6.1 词云图 146
6.6.2 社会网络图 147
6.7 案例分析 148
R数据集HairEyeColor(头发眼睛颜色)可视化 148
R数据集iris (鸢尾花)植物特征可视化 150
R数据集ToothGrowth(豚鼠牙齿生长)特征可视化 153
6.8 R软件应用.155
数据可视化 155
思考与练习 171
第7章 相关与关联分析 172
7.1 相关关系 172
7.1.1 一般相关关系 172
7.1.2 典型相关分析 176
7.2 相关关系可视化 179
7.2.1 二维散点图 179
7.2.2 三维散点图 180
7.2.3 气泡图 182
7.2.4 散点图矩阵 183
7.2.5 相关系数矩阵 185
7.3 关联分析 186
7.3.1 关联规则的基本概念 186
7.3.2 关联规则的Apriori算法 190
7.4 案例分析 191
鸢尾花的外形特征相关关系 191
科技创新活动投入和产出的典型相关分析 194
Apriori 算法示例 200
7.5 R 软件应用 203
相关与关联分析 203
思考与练习 209
第8章 聚类分析 211
8.1 聚类分析概述 211
8.2 距离的计算方法 212
8.2.1 欧氏距离 212
8.2.2 曼哈顿距离 213
8.2.3 明氏距离 213
8.2.4 兰氏距离 214
8.2.5 马氏距离 214
8.2.6 相关距离 215
8.2.7 余弦相似度 215
8.2.8 汉明距离 215
8.3 聚类算法 216
8.3.1 系统聚类方法 216
8.3.2 K-means聚类法 222
8.3.3 K-modes聚类法 224
8.4 最佳K值的两种确定方法 226
8.4.1 肘部法 226
8.4.2 轮廓系数法 229
8.5 案例分析 230
红酒质量数据的聚类分析 230
8.6 R软件应用.234
聚类函数的应用 234
思考与练习 237
第9章 综合指数分析 238
9.1 综合指数分析概述 238
9.2 以专家赋权为主的综合指数分析 239
9.2.1 专家评分法 239
9.2.2 德尔菲法 241
9.2.3 层次分析法 241
9.3 以数据特征赋权为主的综合指数分析 245
9.3.1 熵权法 245
9.3.2 变异系数法 247
9.3.3 主成分分析法 247
9.3.4 TOPSIS方法 250
9.3.5 灰色关联分析法 252
9.4 案例分析 255
高技术产业创新能力综合评价 255
9.5 R软件应用 273
综合指数计算 273
思考与练习 277
参考文献 279
附录 280