随着云计算、大数据、物联网、人工智能和区块链等IT 技术的发展与应用,信息技术不断驱动社会生产方式的变革,人类进入机器智能时代。近年来,大数据处理技术已经广泛地渗透到各行各业,大数据分析与应用的教学工作也逐渐成为高校中的重中之重,这是大数据时代下的必然趋势。
本书从实际应用出发,结合具体案例及应用场景,深入浅出地介绍大数据处理预备知识、Python 技术基础、大数据处理常用模块、大数据采集技术、大数据处理算法以及文本挖掘与应用等。从环境搭建到数据采集可视化,从数据预处理到特征选择与模型训练,再从模型调优到测试评估。通过本书,读者可掌握大数据处理中必备的知识体系和技能,在各领域开展大数据处理与研究工作。本书实例短小精练,便于学习,读者能够在短时间内掌握相关知识点及其应用。
本书主要面向高等学校从事大数据处理和分析的本科生和研究生,亦可作为高等学校大数据处理相关课程的教材。此外,本书提供配套的软件包、实例代码和数据文件,欢迎使用本书作为教材的老师登录www.cmpedu.com 进行下载。
第1 章 大数据处理预备知识.1
1.1 人类的骄傲 1
1.2 大数据思维 1
1.3 大数据的关键技术 2
1.4 机器学习 3
1.5 训练集与测试集 4
1.6 特征表示 4
1.7 文档的相似度计算 5
1.8 贝叶斯定理 6
1.9 信息熵 7
1.10 正确率、精确率与召回率 7
1.11 ROC 曲线 .8
1.12 大数据隐私与安全 9
1.13 练习 10
第2 章 Python 技术基础11
2.1 Python 开发环境的搭建11
2.2 常用操作符 12
2.3 语句规范 13
2.4 变量与数据 13
2.5 控制语句 14
2.6 数据结构 16
2.7 函数 21
2.8 可变对象与不可变对象 23
2.9 面向对象程序设计 24
2.10 练习 31第3 章 大数据处理常用模块.32
3.1 NumPy 32
3.2 Pandas.36
3.3 Matplotlib .41
3.4 练习 50第4 章 大数据采集技术 53
4.1 网络爬虫概述 53
4.2 Requests 基础.54
4.3 XPath 与Lxml57
4.4 网页采集 60
4.5 分页采集 61
4.6 练习 63第5 章 大数据处理算法及应用 64
5.1 回归 64
5.2 决策树 73
5.3 K 近邻.80
5.4 支持向量机 84
5.5 神经网络 87
5.6 朴素贝叶斯 91
5.7 聚类 94
5.8 关联规则 98
5.9 PCA 降维 .102
5.10 机器学习流程 106
5.11 练习 118
第6 章 文本挖掘与应用 121
6.1 文本挖掘流程 121
6.2 NLTK121
6.3 TextBlob .130
6.4 Jieba134
6.5 SnowNLP139
6.6 正则表达式 ..143
6.7 词云 150
6.8 LDA 主题模型 .152
6.9 练习 156第7 章 大数据应用案例 157
7.1 泰坦尼克生存预测 157
7.2 基于用户评论的智能音箱市场分析 166
7.3 有事找政府12345 .171
7.4 基于网贷评论的用户舆情挖掘 172参考文献.178