关于我们
书单推荐
新书推荐
|
Python网络数据爬取及分析从入门到精通(分析篇) Python网络数据爬取及分析从入门到精通(分析篇) 本书采用通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python语言进行网络数据分析的知识,主要内容包括Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘分析、数据预处理及文本聚类、词云热点与主题分布分析、复杂网络与基于数据库技术的分析等。 书中所有知识点都结合了具体的实例进行介绍,涉及的实例都给出了详细分析流程,程序代码都给出了具体的注释,采用图文结合的形式讲解,让读者能更加轻松地领会Python网络数据分析的精髓,快速提高自己的开发能力。 本书既可作为Python开发入门者的自学用书,也可作为高等院校数据分析、数据挖掘、机器学习、大数据等相关专业的教学参考书或实验指导书,还可供Python数据分析人员查阅、参考。 Python网络数据爬取及分析从入门到精通(分析篇) 这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。 本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。 看完此书,真正让你做到从入门到精通。 随着数据分析和人工智能风暴的来临,Python也变得越来越火热。它就像一把利剑,使我们能随心所欲地做着各种分析与研究。在研究机器学习、深度学习与人工智能之前,我们有必要静下心来学习一下Python基础知识、基于Python的网络数据爬取及分析,这些知识点都将为我们后续的开发和研究打下扎实的基础。同时,由于世面上缺少以实例为驱动,全面详细介绍Python网络爬虫及数据分析的书,本套书很好地填补了这一空白,它通过Python语言来教读者编写网络爬虫并教大家针对不同的数据集做算法分析。本套书既可以作为Python数据爬取及分析的入门教材,也可以作为实战指南,包括多个经典案例。下面作者将简单介绍本套书。 它究竟是一套什么样的书呢? 对您学习网络数据抓取及分析是否有帮助呢? 本套书是以实例为主、使用Python语言讲解网络数据爬虫及分析的书和实战指南。本套书结合图表、代码、示例,采用通俗易懂的语言介绍了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例详细讲解。本套书适合计算机科学、软件工程、信息技术、统计数学、数据科学、数据挖掘、大数据等专业的学生学习,也适合对网络数据爬取、数据分析、文本挖掘、统计分析等领域感兴趣的读者阅读,同时也作为数据挖掘、数据分析、数据爬取、机器学习、大数据等技术相关课程的教材或实验指南。 本套书分为两篇本:数据爬取篇和数据分析篇。其中,爬取篇详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储相关的爬虫知识,并通过实例让读者真正学会如何分析网站、爬取自己所需的数据;分析篇详细讲解了Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘、文本预处理、词云分析及主题模型、复杂网络和基于数据库的分析。“数据爬取篇”突出爬取,“数据分析篇”侧重分析,为了更好地掌握相关知识,建议读者将两本书结合起来学习。 为什么本套书会选择Python作为数据爬取和数据分析的编程语言呢? 随着大数据、数据分析、深度学习、人工智能的迅速发展,网络数据爬取和网络数据分析也变得越来越热门。由于Python具有语法清晰、代码友好、易读易学等特点,同时拥有强大的第三方库支持,包括网络爬取、信息传输、数据分析、绘图可视化、机器学习等库函数,所以本套书选择Python作为数据爬取和数据分析的编程语言。 首先,Python既是一种解释性编程语言,又是一种面向对象的语言,其操作性和可移植性较高,因而被广泛应用于数据挖掘、文本抓取、人工智能等领域。就作者看来,Python最大的优势在于效率。有时程序员或科研工作者的工作效率比机器的效率更为重要,对于很多复杂的功能,使用较清晰的语言能给程序员减轻更多的负担,从而大大提高代码质量,提高工作效率。虽然Python底层运行速度要比C语言慢,但Python清晰的结构能节省程序员的时间,简单易学的特点也降低了编程爱好者的门槛,所以说“人生苦短,我学Python”。 其次,Python可以应用在网络爬虫、数据分析、人工智能、机器学习、Web开发、金融预测、自动化测试等多个领域,并且都有非常优秀的表现,从来没有一种编程语言可以像Python这样同时扎根在这么多领域。另外,Python还支持跨平台操作,支持开源,拥有丰富的第三方库。尤其随着人工智能的持续火热,Python在IEEE 发布的2017年最热门语言中排名第一,同时许多程序爱好者、科技工作者也都开始认识Python,使用Python。 接下来作者将Python和其他常用编程语言,突出其优势。相比于C#,Python是跨平台的、支持开源的,是一种解释型语言进行简单对比,可以运行在Windows、Linux等平台上;而C#则相反,其平台受限,不支持开源,并且需要编译。相比于Java,Python更简洁,学习难度也相对低很多,而Java则过于庞大复杂。相比于C和C++,Python的语法简单易懂,代码清晰,是一种脚本语言,使用起来更为灵活;而C和C++通常要和底层硬件打交道,语法也比较晦涩难懂。 目前,Python 3.x版本已经发布并正在普及,本套书却选择了Python2.7版本,并贯穿整套书的所有代码,这又是为什么呢? 在Python发布的版本中,Python 2.7是比较经典的一个版本,其兼容性较高,各方面的资料和文章也比较完善。该版本适用于多种信息抓取库,如Selenium、BeautifulSoup等,也适用于各种数据分析库,如Sklearn、Matplotlib等,所以本套书选择Python 2.7版本;同时结合官方的Python解释器和Anaconda集成软件进行详细介绍,也希望读者喜欢。Python 3.x版本已经发布,具有一些更便捷的地方,但大部分功能和语法都与Python 2.7是一致的,作者推荐大家结合Python 3.x进行学习,并可以尝试将本套书中的代码修改为Python 3.x版本,加深印象。 同时,作者针对不同类型的读者给出一些关于如何阅读和使用本套书的建议。 如果您是一名没有任何编程基础或数据分析经验的读者,建议您在阅读本套书时,先了解对应章节的相关基础知识,并手动敲写每章节对应的代码进行学习;虽然本套书是循序渐进深入讲解的,但是为了您更好地学习数据抓取和数据分析知识,独立编写代码是非常必要的。 如果您是一名具有良好的计算机基础、Python开发经验或数据挖掘、数据分析背景的读者,则建议您独立完成本套书中相应章节的实例,同时抓取自己感兴趣的数据集并深入分析,从而提升您的编程和数据分析能力。 如果您是一名数据挖掘或自然语言处理相关行业的研究者,建议您从本套书找到自己感兴趣的章节进行学习,同时也可以将本套书作为数据爬取或数据分析的小字典,希望给您带来一些应用价值。 如果您是一名老师,则推荐您使用本套书作为网络数据抓取或网络数据分析相关课程的教材,您可以按照本套书中的内容进行授课,也可以将本套书中相关章节布置为学生的课后习题。个人建议老师在讲解完基础知识之后,把相应章节的任务和数据集描述布置给学生,让他们实现对应的爬取或分析实验。但切记,一定要让学生自己独立实现书中的代码,以扩展他们的分析思维,从而培育更多数据抓取和数据分析领域的人才。 如果您只是一名对数据爬取或数据分析感兴趣的读者,则建议您简单了解本书的结构、每章节的内容,掌握数据抓取和数据分析的基本流程,作为您普及Web数据挖掘和大数据分析的参考书。 无论如何,作者都希望本套书能给您普及一些网络数据抓取相关的知识,更希望您能爬取自己所需的语料,结合本套书中的案例分析自己研究的内容,给您的研究课题或论文提供一些微不足道的思路。如果本套书让您学会了Python抓取网络数据的方法,作者就更加欣慰了。 最后,完成本套书肯定少不了很多人的帮助和支持,在此送上我最诚挚的谢意。 本套书确实花费了作者很多心思,包括多年来从事Web数据挖掘、自然语言处理、网络爬虫等领域的研究,汇集了作者5年来博客知识的总结。本套书在编写期间得到了许多Python数据爬取和数据分析爱好者,作者的老师、同学、同事、学生,以及互联网一些“大牛”的帮助,包括张老师(北京理工大学)、籍文(大疆创新科技公司)、徐溥(SAP公司)、俊林(阿里巴巴公司)、容神、峰子(华为公司)、田一(南京理工大学)、王金(重庆邮电大学)、罗炜(北京邮电大学)、胡子(中央民族大学)、任行(中国传媒大学)、青哥(老师)、兰姐(电子科技大学)、小何幸(贵州财经大学)、小民(老师)、任瑶(老师)等,在此表示最诚挚的谢意。同时感谢北京理工大学和贵州财经大学对作者多年的教育与培养,感谢CSDN 网站、博客园网站、阿里云栖社区等多年来对作者博客和专栏的支持。 由于本套书是结合作者关于Python实际抓取网络数据和分析数据的研究,以及多年撰写博客经历而编写的,所以书中难免会有不足或讲得不够透彻的地方,敬请广大读者谅解。 最后,以作者离开北京选择回贵州财经大学信息学院任教的一首诗结尾吧! 贵州纵美路迢迢,未付劳心此一遭。 收得破书三四本,也堪将去教尔曹。 但行好事,莫问前程。 待随满天桃李,再追学友趣事。 作 者 2018年2月24日 杨秀璋,毕业于北京理工大学软件学院,长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院,主讲“数据挖掘与分析”“大数据技术及应用”课程,并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发;有多年的Python编程、数据分析及知识图谱研究经验,实战经验较为丰富。 此外,他还积极分享编程知识和开源代码编写经验,先后在CSDN、博客园、阿里云栖社区撰写博客,仅在CSDN就分享了300多篇原创文章,开设了11个专栏,累计阅读量超过250万人次。 第1章 网络数据分析概述…………………………………………………………… 1 1.1 数据分析 ……………………………………………………………………… 1 1.2 相关技术 ……………………………………………………………………… 3 1.3 Anaconda开发环境…………………………………………………………… 5 1.4 常用数据集 …………………………………………………………………… 9 1.4.1 Sklearn数据集…………………………………………………………… 9 1.4.2 UCI数据集 …………………………………………………………… 10 1.4.3 自定义爬虫数据集……………………………………………………… 11 1.4.4 其他数据集……………………………………………………………… 12 1.5 本章小结……………………………………………………………………… 13 参考文献 …………………………………………………………………………… 14 第2章 Python数据分析常用库 …………………………………………………… 15 2.1 常用库………………………………………………………………………… 15 2.2 NumPy ……………………………………………………………………… 17 2.2.1 Array用法 ……………………………………………………………… 17 2.2.2 二维数组操作…………………………………………………………… 19 2.3 Pandas ……………………………………………………………………… 21 2.3.1 读/写文件 ……………………………………………………………… 22 2.3.2 Series…………………………………………………………………… 24 2.3.3 DataFrame……………………………………………………………… 26 2.4 Matplotlib …………………………………………………………………… 26 2.4.1 基础用法………………………………………………………………… 27 2.4.2 绘图简单示例…………………………………………………………… 28 2.5 Sklearn ……………………………………………………………………… 31 2.6 本章小结……………………………………………………………………… 32 参考文献 …………………………………………………………………………… 32 第3章 Python可视化分析 ………………………………………………………… 33 3.1 Matplotlib可视化分析 ……………………………………………………… 33 3.1.1 绘制曲线图……………………………………………………………… 33 3.1.2 绘制散点图……………………………………………………………… 37 3.1.3 绘制柱状图……………………………………………………………… 40 3.1.4 绘制饼状图……………………………………………………………… 42 3.1.5 绘制3D图形 …………………………………………………………… 43 3.2 Pandas读取文件可视化分析 ……………………………………………… 45 3.2.1 绘制折线对比图………………………………………………………… 45 3.2.2 绘制柱状图和直方图…………………………………………………… 48 3.2.3 绘制箱图………………………………………………………………… 51 3.3 ECharts可视化技术初识 …………………………………………………… 53 3.4 本章小结……………………………………………………………………… 57 参考文献 …………………………………………………………………………… 57 第4章 Python回归分析 …………………………………………………………… 58 4.1 回 归………………………………………………………………………… 58 4.1.1 什么是回归……………………………………………………………… 58 4.1.2 线性回归………………………………………………………………… 59 4.2 线性回归分析………………………………………………………………… 60 4.2.1 LinearRegression ……………………………………………………… 61 4.2.2 线性回归预测糖尿病…………………………………………………… 63 4.3 多项式回归分析……………………………………………………………… 68 4.3.1 基础概念………………………………………………………………… 68 4.3.2 PolynomialFeatures …………………………………………………… 69 4.3.3 多项式回归预测成本和利润…………………………………………… 70 4.4 逻辑回归分析………………………………………………………………… 73 4.4.1 LogisticRegression …………………………………………………… 75 4.4.2 鸢尾花数据集回归分析实例…………………………………………… 75 4.5 本章小结……………………………………………………………………… 83 参考文献 …………………………………………………………………………… 83 第5章 Python聚类分析 …………………………………………………………… 85 5.1 聚 类………………………………………………………………………… 85 5.1.1 算法模型………………………………………………………………… 85 5.1.2 常见聚类算法…………………………………………………………… 86 5.1.3 性能评估………………………………………………………………… 88 5.2 K-Means …………………………………………………………………… 90 5.2.1 算法描述………………………………………………………………… 90 5.2.2 用K-Means分析篮球数据 …………………………………………… 96 5.2.3 K-Means聚类优化 …………………………………………………… 99 5.2.4 设置类簇中心 ………………………………………………………… 103 5.3 BIRCH ……………………………………………………………………… 105 5.3.1 算法描述 ……………………………………………………………… 105 5.3.2 用BIRCH 分析氧化物数据 ………………………………………… 106 5.4 降维处理 …………………………………………………………………… 110 5.4.1 PCA降维 ……………………………………………………………… 111 5.4.2 Sklearn PCA降维 …………………………………………………… 111 5.4.3 PCA降维实例 ………………………………………………………… 113 5.5 本章小结 …………………………………………………………………… 117 参考文献…………………………………………………………………………… 118 第6章 Python分类分析 ………………………………………………………… 119 6.1 分 类 ……………………………………………………………………… 119 6.1.1 分类模型 ……………………………………………………………… 119 6.1.2 常见分类算法 ………………………………………………………… 120 6.1.3 回归、聚类和分类的区别……………………………………………… 122 6.1.4 性能评估 ……………………………………………………………… 123 6.2 决策树 ……………………………………………………………………… 123 6.2.1 算法实例描述 ………………………………………………………… 123 6.2.2 DTC算法 ……………………………………………………………… 125 6.2.3 用决策树分析鸢尾花 ………………………………………………… 126 6.2.4 数据集划分及分类评估 ……………………………………………… 128 6.2.5 区域划分对比 ………………………………………………………… 132 6.3 KNN分类算法 …………………………………………………………… 136 6.3.1 算法实例描述 ………………………………………………………… 136 6.3.2 KNeighborsClassifier………………………………………………… 138 6.3.3 用KNN分类算法分析红酒类型 …………………………………… 139 6.4 SVM 分类算法……………………………………………………………… 147 6.4.1 SVM 分类算法的基础知识…………………………………………… 147 6.4.2 用SVM 分类算法分析红酒数据 …………………………………… 148 6.4.3 用优化SVM 分类算法分析红酒数据集 …………………………… 151 6.5 本章小结 …………………………………………………………………… 154 参考文献…………………………………………………………………………… 154 第7章 Python关联规则挖掘分析 ……………………………………………… 156 7.1 基本概念 …………………………………………………………………… 156 7.1.1 关联规则 ……………………………………………………………… 156 7.1.2 置信度与支持度 ……………………………………………………… 157 7.1.3 频繁项集 ……………………………………………………………… 158 7.2 Apriori算法………………………………………………………………… 159 7.3 Apriori算法的实现………………………………………………………… 163 7.4 本章小结 …………………………………………………………………… 167 参考文献…………………………………………………………………………… 167 第8章 Python数据预处理及文本聚类 ………………………………………… 168 8.1 数据预处理概述 …………………………………………………………… 168 8.2 中文分词 …………………………………………………………………… 170 8.2.1 中文分词技术 ………………………………………………………… 170 8.2.2 Jieba中文分词工具…………………………………………………… 171 8.3 数据清洗 …………………………………………………………………… 175 8.3.1 概 述 ………………………………………………………………… 175 8.3.2 中文语料清洗 ………………………………………………………… 176 8.4 特征提取及向量空间模型 ………………………………………………… 179 8.4.1 特征规约 ……………………………………………………………… 179 8.4.2 向量空间模型 ………………………………………………………… 181 8.4.3 余弦相似度计算 ……………………………………………………… 182 8.5 权重计算 …………………………………………………………………… 184 8.5.1 常用权重计算方法 …………………………………………………… 184 8.5.2 TF-IDF ……………………………………………………………… 185 8.5.3 用Sklearn计算TF-IDF …………………………………………… 186 8.6 文本聚类 …………………………………………………………………… 188 8.7 本章小结 …………………………………………………………………… 192 参考文献…………………………………………………………………………… 192 第9章 Python词云热点与主题分布分析 ……………………………………… 193 9.1 词 云 ……………………………………………………………………… 193 9.2 WordCloud的安装及基本用法 …………………………………………… 194 9.2.1 WordCloud的安装 …………………………………………………… 194 9.2.2 WordCloud的基本用法 ……………………………………………… 195 9.3 LDA ………………………………………………………………………… 203 9.3.1 LDA的安装过程……………………………………………………… 203 9.3.2 LDA的基本用法及实例……………………………………………… 204 9.4 本章小结 …………………………………………………………………… 214 参考文献…………………………………………………………………………… 214 第10章 复杂网络与基于数据库技术的分析 …………………………………… 215 10.1 复杂网络…………………………………………………………………… 215 10.1.1 复杂网络和知识图谱………………………………………………… 215 10.1.2 NetworkX …………………………………………………………… 217 10.1.3 用复杂网络分析学生关系网………………………………………… 219 10.2 基于数据库技术的数据分析……………………………………………… 224 10.2.1 数据准备……………………………………………………………… 224 10.2.2 基于数据库技术的可视化分析……………………………………… 225 10.2.3 基于数据库技术的可视化对比……………………………………… 232 10.3 基于数据库技术的博客行为分析………………………………………… 234 10.3.1 幂率分布……………………………………………………………… 234 10.3.2 用幂率分布分析博客数据集………………………………………… 235 10.4 本章小结…………………………………………………………………… 245 参考文献…………………………………………………………………………… 245 本套后记……………………………………………………………………………… 246 致 谢………………………………………………………………………………… 248
你还可能感兴趣
我要评论
|