全书共11章,以下是各章的主要内容:
第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。
第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具见招拆招,从而踏上编程能力的持续自我提升之路。
- 让零基础小白掌握Python爬虫技术
- 用ChatGPT自动生成爬虫代码
- 掌握AI工具在编程中的应用,革新编程方式,改变编程思维
◆前言 ◆
网络爬虫是一种高效的数据采集工具,然而对于许多初学者而言,这项技术似乎遥不可及,需要具备高深的编程技能才能掌握。本书旨在探讨如何通过简洁易懂的Python编程语言与先进AI工具的强强联手,降低爬虫技术的学习门槛,让学习过程变得轻松愉快。
◎内容结构
全书共11章,以下是各章的主要内容:
第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。
第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具见招拆招,从而踏上编程能力的持续自我提升之路。
◎读者对象
本书适合需要在网络数据的采集、处理与分析方面提高效率的职场人士和办公人员阅读,也可供Python编程爱好者参考。
由于AI技术和编程技术的更新和升级速度很快,加之编者水平有限,本书难免有不足之处,恳请广大读者批评指正。
第1章 Python入门
1.1安装Python编程环境
1.2管理第三方模块
1.3在代码中导入模块
1.4测试Python编程环境
1.5变量的命名和赋值
1.6Python的基本数据类型:数字、字符串
1.7Python的基本数据类型:列表、字典
1.8Python的运算符
1.9Python的控制语句:if语句
1.10Python的控制语句:for语句
1.11Python的控制语句:while语句
1.12Python的控制语句:try/except语句
1.13Python控制语句的嵌套
1.14Python的自定义函数
第2章 AI辅助编程基础
2.1初识AI工具
2.2与AI工具对话的基本操作
2.3设计提示词的原则和技巧
2.4利用AI工具解读和修改代码
2.5利用AI工具分析报错信息
2.6利用AI工具阅读技术文档
第3章 网页的初步分析
3.1查看网页源代码:右键快捷菜单
3.2查看网页源代码:开发者工具
3.3认识常见的HTML标签
3.4剖析网页的结构
3.5判断网页的类型
第4章 静态网页的爬取
4.1用Requests模块获取静态网页的源代码
4.2正则表达式的基础知识
4.3分析网页源代码并编写正则表达式
4.4用正则表达式从网页源代码中提取数据
4.5CSS选择器的基础知识
4.6分析网页源代码并编写CSS选择器
4.7用BeautifulSoup模块从网页源代码中提取数据
4.8用Requests模块下载文件
4.9静态网页爬取实战1:单页爬取
4.10静态网页爬取实战2:多页爬取
第5章 动态网页的爬取
5.1搭建Selenium模块的运行环境
5.2用Selenium模块获取网页源代码
5.3操控浏览器:用XPath定位网页元素
5.4操控浏览器:用CSS选择器定位网页元素
5.5操控浏览器:自动向下滚动页面
5.6操控浏览器:自动下载文件
5.7操控浏览器:切换标签页
5.8操控浏览器:切换至
5.9操控浏览器:启用无界面模式
5.10用Requests模块获取动态加载的数据
5.11使用Cookie模拟登录
5.12动态网页爬取实战1:单页爬取
5.13动态网页爬取实战2:多页爬取
第6章 爬虫数据的处理和分析
6.1pandas模块的基本数据结构:Series
6.2pandas模块的基本数据结构:DataFrame
6.3用pandas模块读写数据文件
6.4DataFrame的常用操作:选取数据
6.5DataFrame的常用操作:数据的运算、排序和筛选
6.6爬虫数据清洗:处理缺失值和重复值
6.7爬虫数据清洗:删除无用的字符
6.8爬虫数据清洗:转换数据类型
6.9爬虫数据清洗:补全数据
6.10爬虫数据分析与可视化
第7章 Python爬虫技术进阶
7.1用pandas模块爬取网页表格数据
7.2用数据接口爬取数据
7.3开发带图形用户界面的爬虫程序
7.4爬虫程序的打包
7.5爬虫提速:优化Selenium模块的等待方式
第8章 综合实战:财经数据爬取
8.1爬取证券日报网的财经新闻
8.2爬取搜狐的财经要闻
8.3爬取东方财富网的财务报表
8.4爬取新浪财经的上市公司盈利能力数据
8.5批量下载上海证券交易所的问询函
8.6批量下载东方财富网的研报
第9章 综合实战:社交媒体数据爬取
9.1爬取百度热搜榜
9.2爬取新浪微博热搜榜
9.3爬取好看视频的数据
第10章 综合实战:电商数据爬取
10.1爬取当当网的图书畅销榜数据
10.2爬取京东的商品评价
第11章 综合实战:媒体文件下载
11.1批量下载图片
11.2批量下载视频