本书详实介绍了数据挖掘与机器学习相关的各种内容,包括数据矩阵、图数据、核方法、项集挖掘、聚类、贝叶斯分类器、决策树、支持向量机、线性回归、逻辑回归、神经网络、深度学习等,介绍其相关概念和基础算法,并在每章的末尾配有相关练习。第二版新增了几个关于回归的章节,包括神经网络和深度学习的内容。
前 言
Data Mining and Machine Learning
数据挖掘和机器学习使人们能够从数据中获得基本的洞察和知识,从大规模数据中发现深刻、有趣和新颖的模式,以及描述性、可理解和可预测的模型。
这个领域有很多相关图书,但它们要么太高深,要么太前沿。本书是一本普及性的书,介绍了机器学习和数据挖掘的基本概念与算法基础。本书中次提到某个概念时会对其进行详细解释,给出详细的步骤和推导过程。本书旨在通过数据和方法的几何解释、(线性)代数解释与概率解释,探讨公式背后的原理。
本书第2版增加了回归的部分,包括线性回归、逻辑(logistic)回归、神经网络和深度学习。另外有几章的内容有更新,已知的错误也已修复。本书内容主要包括数据分析基础、频繁模式挖掘、聚类、分类和回归。这些内容涵盖核心方法及前沿主题,例如深度学习、核方法、高维数据分析和图分析。
本书列举了许多例子来说明相关概念和算法,章末还配有练习题。本书中的所有算法都已由作者实现。建议读者自己实现这些算法(例如,使用Python或R语言实现)以加深理解。幻灯片、数据集和视频等补充资源可通过本书的配套网站http://dataminingbook.info在线获取。
本书适合用于数据挖掘、机器学习和数据科学领域本科生和研究生阶段的课程。本书每一部分开头都会概括介绍本部分的各章。虽然各章大多是自成体系的(重点强调了重要的方程),但部分关于数据分析的基础性介绍也是有用的。例如,部分中的“核方法”一章(第5章)应该在后面章节出现的其他基于核的算法之前介绍。读者可以根据课程的重点或自己的兴趣,按不同的顺序阅读不同的部分。后,欢迎各位读者通过本书配套网站联系我们,提出勘误或其他建议。
目 录
Data Mining and Machine Learning
译者序
前言
作者简介
部分 数据分析基础 1
第1章 数据矩阵 3
1.1 数据矩阵的组成 3
1.2 属性 4
1.3 数据:代数和几何观点 5
1.3.1 距离和角度 7
1.3.2 均值和总方差 9
1.3.3 正交投影 10
1.3.4 线性无关和维数 12
1.4 数据:概率观点 13
1.4.1 二元随机变量 17
1.4.2 多元随机变量 20
1.4.3 随机抽样与统计 21
1.5 拓展阅读 22
1.6 练习 23
第2章 数值型属性 24
2.1 一元分析 24
2.1.1 集中趋势度量 25
2.1.2 离散度度量 28
2.2 二元分析 32
2.2.1 位置和离散度的度量 33
2.2.2 相关性度量 33
2.3 多元分析 37
2.4 数据归一化 41
2.5 正态分布 42
2.5.1 一元正态分布 43
2.5.2 多元正态分布 44
2.6 拓展阅读 47
2.7 练习 47
第3章 类别型属性 49
3.1 一元分析 49
3.1.1 伯努利变量 49
3.1.2 多元伯努利变量 51
3.2 二元分析 56
3.3 多元分析 65
3.4 距离和角度 69
3.5 离散化 70
3.6 拓展阅读 72
3.7 练习 72
第4章 图数据 74
4.1 图的概念 74
4.2 拓扑属性 77
4.3 中心度分析 81
4.3.1 基本中心度 81
4.3.2 Web中心度 82
4.4 图模型 89
4.4.1 Erd?s-Rényi随机图模型 91
4.4.2 Watts-Strogatz小世界图
模型 94
4.4.3 Barabási-Albert无标度模型 98
4.5 拓展阅读 104
4.6 练习 105
第5章 核方法 107
5.1 核矩阵 110
5.1.1 再生核映射 111
5.1.2 Mercer核映射 113
5.2 向量核 115
5.3 特征空间中的基本核运算 119
5.4 复杂对象的核 124
5.4.1 字符串的谱核 124
5.4.2 图节点的扩散核 125
5.5 拓展阅读 129
5.6 练习 129
第6章 高维数据 130
6.1 高维对象 130
6.2 高维体积 133
6.3 超立方体的内接超球面 135
6.4 薄超球面壳的体积 136
6.5 超空间的对角线 137
6.6 多元正态分布的密度 138
6.7 附录:超球面体积的推导 140
6.8 拓展阅读 143
6.9 练习 144
第7章 降维 146
7.1 背景介绍 146
7.2 主成分分析 149
7.2.1 一维近似 149
7.2.2 二维近似 152
7.2.3 r维近似 155
7.2.4 主成分分析的几何意义 158
7.3 核主成分分析 160
7.4 奇异值分解 166
7.4.1 奇异值分解中的几何
意义 167
7.4.2 SVD和PCA之间的
联系 168
7.5 拓展阅读 169
7.6 练习 169
第二部分 频繁模式挖掘 171
第8章 项集挖掘 173
8.1 频繁项集和关联规则 173
8.2 项集挖掘算法 176
8.2.1 逐层方法:Apriori算法 177
8.2.2 事务标识符集的交集方法:
Eclat算法 181
8.2.3 频繁模式树方法:FPGrowth
算法 184
8.3 生成关联规则 188
8.4 拓展阅读 189
8.5 练习 190
第9章 项集概览 194
9.1 频繁项集和闭频繁项集 194
9.2 挖掘频繁项集:GenMax
算法 196
9.3 挖掘闭频繁项集:Charm算法 198
9.4 非可导项集 200
9.5 拓展阅读 205
9.6 练习 205
第10章 序列挖掘 208
10.1 频繁序列 208
10.2 挖掘频繁序列 209
10.2.1 逐层挖掘:GSP 209
10.2.2 垂直序列挖掘:Spade 211
10.2.3 基于投影的序列挖掘:
PrefixSpan 212
10.3 基于后缀树的子串挖掘 214
10.3.1 后缀树 214
10.3.2 Ukkonen线性时间复杂度
算法 217
10.4 拓展阅读 222
10.5 练习 223
第11章 图模式挖掘 226
11.1 同构与支持度 226
11.2 候选图生成 229
11.3 gSpan算法 232
11.3.1 扩展和支持度计算 233
11.3.2 权威性检测 238
11.4 拓展阅读 239
11.5 练习 239
第12章 模式评估与规则评估 242
12.1 模式评估和规则评估的度量 242
12.1.1 规则评估度量 242
12.1.2 模式评估度量 249
12.1.3 比较多条规则和模式 251
12.2 显著性检验和置信区间 253
12.2.1 产生式规则的费希尔
精确检验 254
12.2.2 显著性的置换检验 257
12.2.3 置信区间内的自助抽样 261
12.3 拓展阅读 262
12.4 练习 263
第三部分 聚类 265
第13章 基于代表点的聚类 267
13.1 K-means算法 267
13.2 核K-means 271
13.3 期望化聚类 274
1