![]() ![]() |
机器学习及工业大数据解析应用 读者对象:高等院校控制科学与工程、计算机科学与技术等学科研究生的教材或自动化、人工智能及相关专业的本科生,对机器学习及工业大数据解析感兴趣的研究人员和工程技术人员
本书作为机器学习及工业大数据解析领域的入门教材,在内容设置上尽可能涵盖该研究领域基础知识的各个方面。全书共28章,分为六篇。其中第一篇为概论篇;第二篇为有监督学习篇;第三篇为无监督学习篇;第四篇为半监督学习篇;第五篇为深度学习篇;第六篇为大数据解析篇。每章都附有继续阅读和参考文献,以便有兴趣的读者进一步钻研探索。
更多科学出版社服务,请扫码获取。 ![]()
1991 年 9 月-1995 年 7 月,北京科技大学自动化信息工程学院工业自动化专业学习,获工学
学士学位
1999 年 9 月-2002 年 3 月,北京科技大学信息工程学院控制理论与控制工程专业学习,获工
学硕士学位
2002 年 9 月-2007 年 6 月,北京科技大学信息工程学院控制理论与控制工程专业学习,获工
学博士学位2013 年 9 月至今,北京科技大学自动化学院控制科学与工程系,教授/博士生导师
2011 年 1 月-2013 年 8 月,北京科技大学自动化学院自动控制研究所,副教授
2009 年 4 月-2011 年 3 月,清华大学自动化系,博士后
2005 年 7 月-2010 年 12 月,北京科技大学信息工程学院自动控制研究所,副教授
2000 年 7 月-2005 年 6 月,北京科技大学信息工程学院自动控制研究所,助理研究员
1995 年 8 月-2000 年 6 月,北京科技大学科研处,实习研究员(1)国家重点研发计划项目“数据驱动的制造过程闭环控制分析与优化方法研究”,负责人(本书依托项目);中国金属学会冶金自动化分会副主任委员;北京市金属学会计算机与自动化分会主任;中国
人工智能学会智能产品与产业工作委员会常务委员;中国人工智能与机器人教育专委会理事;
中国自动化学会过程控制专业委员会委员;中国自动化学会技术过程故障诊断与安全性专业
委员会委员;IEEE SMC 北京分会副主席
目录
前言 第一篇 概论篇 第1章 绪论 3 1.1 机器学习简介 3 1.2 机器学习与人工智能 3 1.3 机器学习的主要研究领域 4 1.4 机器学习的发展历史与发展趋势 5 1.4.1 机器学习的发展历史 5 1.4.2 机器学习的发展趋势 7 1.5 机器学习系统的基本结构 8 1.5.1 数据 8 1.5.2 模型 9 1.5.3 损失函数 11 1.5.4 训练 13 1.6 模型评估与模型选择 14 1.6.1 训练误差与测试误差 14 1.6.2 过拟合与模型选择 14 1.7 正则化与交叉验证 15 1.7.1 正则化 15 1.7.2 交叉验证 16 1.8 泛化能力 17 1.8.1 泛化误差 17 1.8.2 泛化误差上界 18 1.9 机器学习的基本术语 18 1.9.1 假设空间 18 1.9.2 变形空间 19 1.9.3 归纳偏置 20 1.10 机器学习的分类 20 iv 机器学习及工业大数据解析应用 1.10.1 有监督学习 21 1.10.2 无监督学习 22 1.10.3 半监督学习 23 1.10.4 深度学习 25 1.11 工业大数据解析统计学基础 25 1.11.1 期望、方差、协方差 25 1.11.2 一元高斯分布 26 1.11.3 多元高斯分布 27 继续阅读 27 参考文献 27 第2章 概念学习和一般到特殊序 29 2.1 概念学习的定义 29 2.2 概念学习的术语 29 2.3 归纳学习假设 33 2.4 假设的一般到特殊序 34 2.5 寻找极大特殊假设 34 2.5.1 候选消除算法的表示 35 2.5.2 列表后消除算法 36 2.5.3 变形空间的简洁表示 37 2.5.4 候选消除学习算法 38 2.6 归纳偏置 38 2.6.1 有偏的假设空间 39 2.6.2 无偏学习器 39 2.6.3 无偏学习的无用性 39 继续阅读 40 参考文献 40 第二篇 有监督学习篇 第3章 感知机 43 3.1 感知机学习模型 43 3.2 感知机学习策略 44 3.2.1 数据集的线性可分性 44 3.2.2 学习策略 44 3.3 感知机学习算法 45 3.3.1 感知机学习算法的一般形式 45 3.3.2 感知机学习算法的收敛性 46 继续阅读 47 参考文献 47 第4章 k 近邻算法及模型 49 4.1 k 近邻算法 49 4.2 k 近邻模型 50 4.2.1 模型 50 4.2.2 距离度量 50 4.2.3 k 值的选择 51 4.2.4 分类决策规则 52 4.3 k 近邻算法的实现 52 4.3.1 构造kd树 53 4.3.2 搜索kd树 54 继续阅读 55 参考文献 55 第5章 决策树 56 5.1 决策树模型与学习 56 5.1.1 决策树模型 56 5.1.2 决策树与if-then规则 56 5.1.3 决策树与条件概率分布 57 5.1.4 决策树学习 57 5.2 决策树方法的产生及算法过程 58 5.2.1 ID3算法 58 5.2.2 CART算法 59 5.2.3 C4.5算法 61 5.3 决策树常见问题 61 5.3.1 熵、信息增益和特征选择问题 61 5.3.2 决策树学习过拟合问题 64 5.3.3 交叉验证与树的修剪问题 65 5.3.4 最佳划分的度量问题 66 5.3.5 处理缺失属性值问题 67 5.3.6 处理连续属性值问题 68 5.3.7 叶节点判定问题 68 5.3.8 待测样本分类问题 68 继续阅读 69 参考文献 69 第6章 集成学习 70 6.1 个体与集成 70 6.2 Bagging算法 70 6.2.1 Bagging算法工作机制 71 6.2.2 Bagging算法简介 71 6.2.3 Bagging算法的自主采样 72 6.2.4 Bagging算法的结合策略 72 6.2.5 偏差与方差分析 73 6.2.6 随机森林算法 74 6.3 Boosting算法 74 6.3.1 Boosting算法工作机制 74 6.3.2 Boosting算法的两个核心问题 75 6.3.3 AdaBoost算法 75 6.3.4 提升树算法 77 6.3.5 梯度提升决策树算法 79 6.4 Stacking算法 79 6.5 集成学习的结合策略 80 6.5.1 平均法 80 6.5.2 学习法 81 继续阅读 82 参考文献 82 第7章 回归分析 83 7.1 回归分析的概念与特点 83 7.2 回归模型的选择 84 7.3 常用的回归模型 85 7.3.1 线性回归 85 7.3.2 逻辑回归 86 7.3.3 多项式回归 88 7.3.4 逐步回归 89 7.3.5 岭回归与Lasso 回归 91 7.3.6 主元回归 93 7.3.7 偏最小二乘回归 94 7.3.8 弹性回归 96 继续阅读 96 参考文献 97 第8章 支持向量机 98 8.1 间隔与支持向量 98 8.2 线性可分支持向量机与硬间隔最大化 99 8.2.1 函数间隔和几何间隔 99 8.2.2 间隔最大化 100 8.2.3 对偶问题求解 100 8.3 线性支持向量机与软间隔最大化 101 8.3.1 软间隔的对偶算法 101 8.3.2 Hinge损失函数 103 8.4 非线性支持向量机与核函数 104 8.4.1 核技巧 104 8.4.2 正定核 104 8.4.3 核非线性支持向量机 105 8.5 序列最小优化算法 105 8.5.1 两个变量二次规划的求解方法 105 8.5.2 SMO算法步骤 106 继续阅读 107 参考文献 108 第9章 隐马尔可夫模型 109 9.1 马尔可夫模型 109 9.2 隐马尔可夫模型的要素和假设 110 9.2.1 要素 110 9.2.2 假设 111 9.3 隐马尔可夫模型的基本问题 111 9.4 三个基本问题的求解算法 114 9.4.1 前向算法 114 9.4.2 后向算法 115 9.4.3 Viterbi算法 116 继续阅读 117 参考文献 117 第10章 条件随机场 118 10.1 概率无向图模型 118 10.1.1 概率无向图模型的定义 118 10.1.2 概率无向图模型的因子分解 119 10.2 条件随机场的定义与形式 120 10.2.1 条件随机场的定义 120 10.2.2 条件随机场的参数化形式 122 10.2.3 条件随机场的简化形式 122 10.2.4 条件随机场的矩阵形式 123 10.3 条件随机场的概率计算问题 124 10.3.1 前向-后向算法 124 10.3.2 概率计算 125 10.3.3 期望计算 125 10.4 条件随机场的学习算法 126 10.4.1 改进的迭代尺度法 126 10.4.2 拟牛顿法 129 继续阅读 130 参考文献 130 第三篇 无监督学习篇 第11章 贝叶斯学习 133 11.1 贝叶斯理论 133 11.1.1 先验概率和后验概率 133 11.1.2 贝叶斯公式 133 11.1.3 极大后验假设 134 11.1.4 极大似然假设 134 11.2 贝叶斯公式和概念学习 135 11.2.1 Brute-Force 贝叶斯概念学习算法 135 11.2.2 特定情况下的极大后验假设 135 11.2.3 极大后验假设和一致学习器 136 11.2.4 极大似然和最小误差平方假设 137 11.2.5 用于预测概率的极大似然假设 137 11.2.6 最小描述长度准则 138 11.2.7 贝叶斯最优分类器 138 11.2.8 吉布斯算法 139 11.3 朴素贝叶斯 139 11.3.1 朴素贝叶斯的基本框架 139 11.3.2 朴素贝叶斯分类器 140 11.3.3 朴素贝叶斯模型 141 11.3.4 平滑技术 142 11.4 贝叶斯网络 143 11.4.1 贝叶斯网络的定义及性质 143 11.4.2 贝叶斯网络的结构形式 143 11.4.3 贝叶斯网络的判定条件 143 11.4.4 贝叶斯网络的构建及学习 144 继续阅读 145 参考文献 145 第12章 聚类分析 146 12.1 聚类与分类 146 12.2 聚类分析的过程及要求 146 12.3 聚类分析的度量 147 12.3.1 外部指标 148 12.3.2 内部指标 149 12.3.3 选择相似性度量的原则 151 12.4 基于划分的聚类 153 12.4.1 K-means算法 153 12.4.2 K-medoids算法 154 12.4.3 K-prototype算法 155 12.5 基于层次的聚类 157 12.5.1 聚合聚类与分裂聚类算法 157 12.5.2 平衡迭代削减聚类算法 158 12.5.3 使用代表点的聚类算法 161 12.6 基于密度的聚类 162 12.6.1 DBSCAN算法 162 12.6.2 WS-DBSCAN算法 164 12.6.3 MDCA算法 164 12.7 基于模型的聚类 165 12.7.1 基于SOM神经网络的聚类算法 165 12.7.2 基于概率模型的聚类算法 166 继续阅读 167 参考文献 167 第13章 降维与度量学习 168 13.1 降维方法概述 168 13.2 线性降维方法 168 x 机器学习及工业大数据解析应用 13.2.1 子集选择法 168 13.2.2 主成分分析法 169 13.2.3 慢特征分析法 171 13.2.4 判别分析法 174 13.2.5 典型相关分析法 177 13.2.6 奇异值分解法 179 13.2.7 因子分析法 180 13.3 非线性降维方法 181 13.3.1 流形学习简介 181 13.3.2 保留局部特征 181 13.3.3 保留全局特征 187 13.4 度量学习 192 13.4.1 度量的定义 192 13.4.2 KL 散度 192 继续阅读 193 参考文献 193 第14章 概率潜在语义分析 195 14.1 单词向量空间与话题向量空间 195 14.1.1 单词向量空间 195 14.1.2 话题向量空间 197 14.2 潜在语义分析算法 199 14.2.1 矩阵奇异值分解算法 199 14.2.2 应用案例 201 14.3 非负矩阵分解算法 203 14.3.1 非负矩阵分解 203 14.3.2 潜在语义分析模型 204 14.3.3 非负矩阵分解的形式化 204 14.4 概率潜在语义分析模型 205 14.4.1 基本想法 205 14.4.2 生成模型 206 14.4.3 共现模型 206 14.4.4 模型性质 207 14.5 概率潜在语义分析算法 208 继续阅读 210 参考文献 211 第15章 潜在狄利克雷分布 212 15.1 概率分布 212 15.1.1 分布定义 212 15.1.2 共轭先验 215 15.2 潜在狄利克雷分布模型 216 15.2.1 模型定义 216 15.2.2 概率图模型 217 15.2.3 随机变量序列的可交换性 218 15.2.4 概率公式 219 15.3 LDA 的吉布斯抽样算法 220 15.3.1 基本思想 220 15.3.2 算法的主要部分 221 15.3.3 算法的后处理 223 15.4 LDA的变分EM 算法 224 15.4.1 变分推理 224 15.4.2 变分EM算法 225 15.4.3 算法推导 225 继续阅读 231 参考文献 231 第四篇 半监督学习篇 第16章 基于图的半监督学习 235 16.1 标签传播算法 235 16.1.1 标签传播算法实例 235 16.1.2 基于scikit-learn的标签传播算法 237 16.1.3 拉普拉斯矩阵正则化提升平滑度 238 16.2 基于马尔可夫随机游走的标签传播算法 240 16.3 流形学习 243 16.3.1 等距特征映射流形学习算法 243 16.3.2 局部线性嵌入算法 244 16.3.3 拉普拉斯谱嵌入算法 246 16.3.4 t-SNE 246 继续阅读 251 参考文献 251 第17章 有约束的概率半监督聚类 252 17.1 基于HMRF 的半监督聚类模型 252 17.1.1 HMRF 模型 253 17.1.2 类别的马尔可夫随机域 253 17.1.3 HMRF 中的联合概率 254 17.1.4 HMRF 的半监督聚类的目标函数 255 17.2 HMRF-Kmeans 算法 256 17.3 获取约束的主动学习方法 261 继续阅读 263 参考文献 263 第18章 基于条件调和混合的半监督学习 265 18.1 条件调和混合模型 265 18.2 CHM 模型的学习 266 18.3 融入先验知识 270 18.4 学习条件分布 270 18.5 模型平均 271 继续阅读 271 参考文献 271 第19章 高级半监督分类 272 19.1 对比性悲观似然估计 272 19.2 半监督支持向量机 273 19.2.1 算法 274 19.2.2 实例 277 继续阅读 278 参考文献 278 第五篇 深度学习篇 第20章 前馈神经网络 281 20.1 前馈神经网络的模型 282 20.1.1 前馈神经网络的定义 282 20.1.2 前馈神经网络的表示能力 282 20.2 前馈神经网络的学习 283 20.2.1 前馈神经网络学习的优化算法 283 20.2.2 反向传播算法 284 20.3 前馈神经网络的正则化 286 20.3.1 深度学习中的正则化 286 20.3.2 早停法 286 20.3.3 暂退法 286 继续阅读 287 参考文献 287 第21章 循环神经网络 288 21.1 循环神经网络的模型 288 21.1.1 循环神经网络的定义 288 21.1.2 循环神经网络的学习算法 289 21.1.3 梯度消失与爆炸 289 21.2 常用的循环神经网络 290 21.2.1 长短期记忆网络 290 21.2.2 门控循环单元网络 292 21.2.3 深度循环神经网络 293 21.2.4 双向循环神经网络 294 21.3 循环神经网络在自然语言生成中的应用 295 21.3.1 词向量 295 21.3.2 语言模型与语言生成 296 继续阅读 297 参考文献 297 第22章 卷积神经网络 299 22.1 卷积神经网络的模型 299 22.1.1 卷积 299 22.1.2 池化 300 22.1.3 卷积神经网络的性质 301 22.2 卷积神经网络的学习算法 301 22.2.1 卷积导数 301 22.2.2 反向传播算法 302 22.3 卷积神经网络在图像分类中的应用 305 22.3.1 AlexNet 305 22.3.2 残差网络 307 继续阅读 307 参考文献 307 xiv 机器学习及工业大数据解析应用 第23章 生成对抗网络与宽度学习 309 23.1 生成对抗网络的基本模型 309 23.1.1 模型 309 23.1.2 学习算法 310 23.2 生成对抗网络在图像生成中的应用 311 23.2.1 转置卷积 311 23.2.2 DCGAN 313 23.3 宽度学习 314 23.3.1 产生背景 314 23.3.2 RVFLNN 简介 314 23.3.3 算法介绍 316 继续阅读 318 参考文献 318 第24章 强化学习 320 24.1 强化学习的定义 320 24.2 强化学习与其他机器学习方法的区别 320 24.3 强化学习的特点 321 24.4 强化学习的要素与架构 321 24.4.1 四个基本要素 321 24.4.2 强化学习的架构 322 24.5 强化学习的训练过程 323 24.6 强化学习算法分类 323 24.6.1 基于价值的方法 323 24.6.2 基于策略的方法 324 24.6.3 参与评价方法 324 24.6.4 其他分类 325 24.7 强化学习的代表算法 325 24.7.1 SARSA 325 24.7.2 Q 学习 326 24.7.3 策略梯度 327 24.7.4 Actor-Critic 329 24.7.5 深度Q 网络 331 继续阅读 332 参考文献 332 第六篇 大数据解析篇 第25章 工业大数据解析过程 337 25.1 基于机器学习与规则方法的区别 337 25.2 业务理解 338 25.3 数据理解 339 25.3.1 初始数据解析 339 25.3.2 探索性数据分析 340 25.3.3 描述数据 341 25.3.4 数据的类型 341 25.4 数据准备 342 25.4.1 脏数据 342 25.4.2 数据清洗 343 25.4.3 数据离散化 343 25.4.4 数据压缩/数据整理 344 25.4.5 文本清洗 345 25.4.6 特征工程 346 25.4.7 特征选择的方法 346 25.4.8 特征提取 347 25.5 数据建模 349 25.6 模型评估 350 25.6.1 评估模型性能 350 25.6.2 优化模型参数 351 25.6.3 解释模型结果 352 25.7 模型部署 352 继续阅读 353 参考文献 353 第26章 时间序列分析 354 26.1 探索与理解时间序列 354 26.1.1 时间序列数据分析 354 26.1.2 时间序列中缺失值的数据清理 354 26.1.3 归一化和标准化时间序列数据 355 26.2 时间序列特征工程 356 26.2.1 日期时间特征 356 26.2.2 滞后特征和窗口特征 356 xvi 机器学习及工业大数据解析应用 26.2.3 滑动窗口统计信息 357 26.2.4 扩展窗口统计信息 357 26.3 时间序列预测的自回归和自动方法 357 26.3.1 自回归 357 26.3.2 移动平均 358 26.3.3 自回归移动平均 360 26.3.4 自回归差分移动平均 360 26.3.5 自动化机器学习 362 继续阅读 363 参考文献 363 第27章 因果图学习 365 27.1 无监督图学习 365 27.2 有监督图学习 371 27.2.1 有监督图嵌入算法的层次结构 371 27.2.2 基于特征的方法 371 27.2.3 浅嵌入方法 372 27.2.4 图卷积神经网络 372 27.3 基于图学习的工业大数据解析 374 27.3.1 数据集概述 374 27.3.2 网络拓扑和异常检测 375 27.3.3 有监督学习和无监督学习任务 376 27.3.4 基于图学习的工业场景分析 377 27.4 图学习的新趋势 380 27.4.1 图的数据增强技术 380 27.4.2 拓扑数据分析 381 27.4.3 拓扑机器学习 382 继续阅读 383 参考文献 383 第28章 可解释性学习 385 28.1 大数据解析的可解释性 385 28.1.1 可解释性的重要性 385 28.1.2 可解释性方法的分类 386 28.1.3 可解释性范围 387 28.1.4 可解释性评估 388 28.1.5 解释方法和解释的性质 388 28.1.6 人性化的解释 389 28.2 模型无关可解释性方法 390 28.2.1 部分依赖图 391 28.2.2 个体条件期望 393 28.2.3 累计局部效应图 394 28.2.4 特征交互 396 28.2.5 置换特征重要性 398 28.2.6 全局代理模式 399 28.2.7 局部代理 401 28.3 基于大数据样本的解释 402 28.3.1 反事实解释 403 28.3.2 对抗样本 405 28.3.3 原型与批评 407 28.3.4 有影响力的实例 410 28.4 可解释性的未来 412 继续阅读 413 参考文献 413
你还可能感兴趣
我要评论
|