电子工业出版社-网上书店

本书基于Python介绍网络爬虫的基础知识。全书包括8个项目，分别为“爬虫入门——认识与使用网络爬虫”“网页数据爬取——爬取图片、视频与半结构化数据”“网页数据解析与爬取——爬取电影网站中的数据”“网络爬虫与数据存储——爬取网页数据并存储”“动态内容爬取——探索社交媒体动态”“引入Scrapy——构建高效的网络爬虫”“应对反爬策略——突破封锁，持续爬取”“综合案例——构建电商网站并使用网络爬虫爬取数据”。通过这些项目，本书系统讲解Python的Web访问技术、BeautifulSoup和XPath的数据分析与提取技术、Scrapy爬虫框架技术及Selenium爬虫程序技术等内容。每个项目的编写均遵循由浅入深的学习规律，采取理论与实践相结合的方式，引导学生完成实战项目。本书适合作为软件技术、大数据、人工智能等专业的教材，也适合具有一定Linux或Python开发基础的人员阅读，同时可作为爬虫工程师的参考书。

项目1  爬虫入门——认识与使用网络爬虫	1
任务1.1  认识网络爬虫	1
1.1.1　网络爬虫介绍	1
1.1.2　网络爬虫的运行机制	3
1.1.3　网络爬虫的应用	3
任务1.2  认识HTTP的请求与响应	4
1.2.1　HTTP组成	4
1.2.2　请求与响应	4
任务1.3  安装并使用Python扩展库	7
1.3.1　认识Python	7
1.3.2　安装Python	7
1.3.3　Python基本语法	8
1.3.4　认识Python爬虫库	11
1.3.5　安装Python爬虫库	12
任务1.4  利用Python实现网络爬虫	15
1.4.1　运行Python爬虫库	15
1.4.2　利用Python实现网页请求与响应	17
1.4.3　分析网页结构	21
项目实战  读取网页数据	24
思考与练习	27
项目2  网页数据爬取——爬取图片、视频与半结构化数据	29
任务2.1  认识网络常见数据类型	30
2.1.1　HTML	30
2.1.2　XML	30
2.1.3　JSON	31
2.1.4　非文本资源	31
任务2.2  文件操作	32
任务2.3  图片与视频爬取	34
2.3.1　图片爬取	34
2.3.2　视频爬取	36
任务2.4  XML与JSON数据处理	38
2.4.1　XML数据处理	38
2.4.2　JSON数据处理	46
项目实战  爬取本地服务器中的XML数据	50
思考与练习	52
项目3  网页数据解析与爬取——爬取电影网站中的数据	53
任务3.1  正则表达式及其应用	54
3.1.1　正则表达式介绍	54
3.1.2　正则表达式应用	56
任务3.2  BeautifulSoup及其应用	61
3.2.1　BeautifulSoup介绍	61
3.2.2　BeautifulSoup应用	63
任务3.3  利用Requests和BeautifulSoup爬取电影网站中的数据	84
3.3.1　熟悉爬取原理	84
3.3.2　爬取电影网站中的数据	86
项目实战  翻页爬取网页数据	92
思考与练习	95
项目4  网络爬虫与数据存储——爬取网页数据并存储	97
任务4.1  CSV存储	98
4.1.1　CSV介绍	98
4.1.2　利用Python读取CSV文件	99
4.1.3　网络爬虫与CSV存储	100
任务4.2  MySQL存储	105
4.2.1　MySQL介绍	105
4.2.2　MySQL操作	106
项目实战  爬取网页数据并将其存储到MySQL中	116
思考与练习	120
项目5  动态内容爬取——探索社交媒体动态	121
任务5.1  动态网页特征	122
5.1.1　初识动态网页	122
5.1.2　源代码特征	123
5.1.3　网址特征	124
任务5.2  动态网页分析	124
5.2.1　理解Ajax和动态加载内容	124
5.2.2　实现动态加载内容	125
5.2.3　爬取动态生成的内容	126
任务5.3  Selenium环境搭建	127
5.3.1　安装Selenium	127
5.3.2　下载浏览器驱动程序	127
5.3.3　验证环境搭建	128
任务5.4  Selenium元素定位与精准搜索	129
5.4.1　通过标签的id属性进行定位	130
5.4.2　通过标签的name属性进行定位	131
5.4.3　通过标签的class属性进行定位	131
5.4.4　通过标签名tag进行定位	132
5.4.5　通过link进行定位	133
5.4.6　通过元素的XPath表达式进行定位	135
5.4.7　通过CSS选择器进行定位	136
任务5.5  Selenium等待机制	137
5.5.1　隐式等待	137
5.5.2　显式等待	138
5.5.3　固定等待	139
任务5.6  Selenium浏览器操作	140
5.6.1　处理浏览器弹窗	140
5.6.2　切换窗口和标签页	143
5.6.3　浏览器Cookie操作	144
5.6.4　执行JavaScript代码	146
5.6.5　处理iframe	146
项目实战  社交媒体网站微博爬虫实战	148
思考与练习	153
项目6  引入Scrapy——构建高效的网络爬虫	155
任务6.1  Scrapy基础	156
6.1.1　认识Scrapy	156
6.1.2　Scrapy组件	156
任务6.2　安装Scrapy	159
6.2.1　Scrapy安装	159
6.2.2　安装验证	159
任务6.3　认识Scrapy中的对象	160
6.3.1　Request对象	161
6.3.2　Response对象	162
6.3.3　Item对象	164
任务6.4  创建第一个Scrapy项目	166
任务6.5  利用Scrapy爬取豆瓣读书Top 250页面数据	170
6.5.1　创建项目与搭建结构	170
6.5.2　定义Item	170
6.5.3　编写Spider爬虫代码	171
6.5.4　修改pipeline.py文件	175
6.5.5　修改settings.py文件	176
6.5.6　运行Scrapy爬虫	179
6.5.7　查看爬取结果	180
项目实战  利用Scrapy爬取当当网站图书数据	181
思考与练习	192
项目7  应对反爬策略——突破封锁，持续爬取	195
任务7.1  常见反爬机制与应对策略	196
7.1.1　利用代理IP池避免IP封锁	196
7.1.2　伪装User-Agent模拟真实浏览器行为	197
任务7.2  利用Python搭建代理IP池	199
7.2.1　收集代理	199
7.2.2　验证代理	201
7.2.3　管理代理	204
7.2.4　使用代理	205
任务7.3  处理简单验证码	206
7.3.1　安装与配置Tesseract	207
7.3.2　使用Tesseract识别验证码	213
任务7.4  利用aiohttp实现高效数据爬取	215
7.4.1　同步编程	215
7.4.2　异步编程	216
7.4.3　aiohttp	216
7.4.4　aiohttp进阶应用与优化	218
项目实战  爬取Scrape书籍网站	220
思考与练习	227
项目8  综合案例——构建电商网站并使用网络爬虫爬取数据	229
任务8.1  认识电商网站	230
8.1.1　电商网站介绍	230
8.1.2　网络爬虫与电商网站	231
任务8.2  构建电商平台	232
8.2.1　认识Flask	232
8.2.2　Flask下的电商网站开发	233
任务8.3  爬取电商平台数据	235
8.3.1　编写代码	235
8.3.2　运行网络爬虫	236
8.3.3　将数据保存到CSV文件中	236
8.3.4　数据分析	238

党的二十大报告指出：教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力，深入实施科教兴国战略、人才强国战略、创新驱动发展战略，开辟发展新领域新赛道，不断塑造发展新动能新优势。高等教育与经济社会发展紧密相连，对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。
在人工智能与大数据蓬勃发展的今天，数据是新时代的“石油”，而网络爬虫正是开采这类资源“钻井机”。Python凭借简洁优雅的语法和强大的生态体系，成为构建网络爬虫的首选语言。从简单的网页信息爬取，到复杂的动态数据采集与自动化交互，Python都能轻松应对。
本书秉持“项目驱动、实战为王”的设计理念，精心设计了8个由浅入深、贴近真实场景的完整项目，带学生从零开始，逐步构建属于自己的爬虫系统。编者坚信：最好的学习方式，就是动手做一个真正能用的东西。
这8个项目覆盖网络爬虫开发的核心技术栈与典型应用场景：从静态网页解析到动态内容爬取，从基础的数据提取到反爬策略应对，从数据清洗到可视化呈现，从单页脚本到Scrapy框架化开发。每个项目都是独立的“微系统”，涵盖从需求分析、技术选型、代码实现、调试优化到结果输出的完整流程。学生将在实践中掌握Requests、BeautifulSoup、re正则表达式、Selenium、Scrapy等关键工具的使用精髓。
在阅读本书时，请学生务必边学边练，运行每一行代码，理解每一个设计决策。同时，编者始终强调：合法合规、尊重目标网站规则是网络爬虫开发的底线。请学生合理控制请求频率，遵守robots（爬虫协议）协议，做一名有责任心的技术人。
本书由重庆航天职业技术学院的谢娜娜、黄源、任东哲任主编，东软教育科技集团有限公司赵伟参与指导，全书由黄源策划并负责统稿工作。
本书既是国家高水平“双高”专业群建设的重要成果，也是重庆市职业教育教学重大项目建设成果。本书作为重庆市高技能人才培训基地培训教材，并得到了广泛认可。作为一本产学融合、理实兼顾的职业教育教材，本书由校企双方深度合作、共同编写完成。在本书的编写过程中，编者得到了重庆航天信息有限公司、东软教育科技集团有限公司、重庆菲利信科技有限公司的大力支持与协助，在此谨致以诚挚的谢意。
在编写本书的过程中，编者参阅了大量的相关资料，在此表示感谢；同时向对电子工业出版社的编辑致以诚挚感谢，感谢他们的辛勤付出。
需要特别提到的是，为了便于学生理解相关技术，书中选择若干互联网网站页面采集作为实例，特此向这些网站的运营方表示感谢。
由于编者水平有限，书中难免出现疏漏，衷心希望广大读者批评指正。
注意：本书完整资源代码请到华信教育资源网下载。

本书配套资源下载

对不起，暂无音视频资源！

Python网络爬虫技术项目化教程