机器学习是数据科学不可或缺的重要组成部分,是数据科学人才培养的核心内容之一。本书以机器学习理论+Python编程+应用实践的“三位一体”讲解方式,引领读者进入Python机器学习领域。理论上,突出机器学习理论讲解的可读性并兼具知识的深度和广度,旨在指导Python编程调参和实践应用;Python编程上,突出以数据和问题为导向的Python学习路径,借助基于模拟数据的编程直观展示理论背后的朴素道理反刍理论理解,借助基于案例的编程完成机器学习的应用落地;应用实践上,突出案例选择的典型性、综合性和多样性,面向案例问题凸显机器学习理论的指导作用,面向案例实现提升Python编程能力。
本书提供配套数据集、Python源代码等学习资源,可作为高等院校数据科学、人工智能等相关专业的机器学习教学用书,也可作为Python 机器学习应用研究人员的参考用书。
薛薇,中国人民大学统计学院副教授,中国人民大学应用统计科学研究中心研究员。所著著作曾入选“十二五”普通高等教育本科国家级规划教材、北京市高等教育精品教材。主要开设课程包括机器学习、统计分析软件等。研究方向为机器学习与深度学习算法及应用研究。
第1章 机器学习概述
1.1  机器学习的发展:人工智能中的机器学习
1.2  机器学习中的数据
1.3  机器学习的任务
第2章 Python机器学习基础
2.1  Python:机器学习的首选工具
2.2  Python的集成开发环境:Anaconda
2.3  Python第三方程序包的引用
2.4  NumPy使用示例
2.5  Pandas使用示例
2.6  NumPy和Pandas的综合应用:空气质量监测数据的预处理
   和基本分析
2.7  Matplotlib的综合应用:空气质量监测数据的图形化展示
第3章 数据预测中的相关问题
3.1  线性回归预测模型
3.2  认识线性分类预测模型
3.3  从线性预测模型到非线性预测模型
3.4  预测模型的参数估计
3.5  预测模型的选择
第4章 数据预测建模:贝叶斯分类器
4.1  贝叶斯概率和贝叶斯法则
4.2  朴素贝叶斯分类器
4.3  朴素贝叶斯分类器在文本分类中的应用
第5章 数据预测建模:近邻分析
5.1  近邻分析:K- 近邻法
5.2  回归预测中的K- 近邻法
5.3  分类预测中的K- 近邻法
5.4  基于观测相似性的加权K- 近邻法
5.5  K- 近邻法的Python应用实践
第6章 数据预测建模:决策树
6.1  决策树的基本概念
6.2  回归预测中的决策树
6.3  分类预测中的决策树
6.4  决策树的生长和剪枝
6.5  经典决策树算法:分类回归树
6.6  决策树的Python 应用实践
第7章 数据预测建模:集成学习
7.1  集成学习概述
7.2  基于重抽样自举法的集成学习
7.3  从弱模型到强模型的构建:提升法
7.4  梯度提升树
7.5  XGBoost算法
第8章 数据预测建模:人工神经网络
8.1  人工神经网络的基本概念
8.2  感知机网络
8.3  多层感知机网络
8.4  B-P反向传播算法
8.5  人工神经网络的Python应用实践
第9章 数据预测建模:支持向量机
9.1  支持向量分类概述
9.2  完全线性可分时的支持向量分类
9.3  广义线性可分时的支持向量分类
9.4  线性不可分时的支持向量分类
9.5  支持向量机的Python应用实践:老年人危险体位预警
第10章 特征选择:过滤、包裹和嵌入策略
10.1  过滤式策略下的特征选择
10.2  包裹式策略下的特征选择
10.3  嵌入式策略下的特征选择
第11章 特征提取:空间变换策略
11.1  主成分分析
11.2  矩阵的奇异值分解
11.3  因子分析
第12章 揭示数据内在结构:聚类分析
12.1  聚类分析概述
12.2  基于质心的聚类模型:K-均值聚类
12.3  基于联通性的聚类模型:系统聚类
12.4  基于密度的聚类:DBSCAN聚类
12.5  聚类分析的Python应用实践:环境污染的区域特征分析