前言
本节为大家带来一个最简单的Python爬虫项目,相信大家可以看懂的。从0到1的过程详细写出来,希望能帮助到大家
小说网站的基本结构
首页(总目录)→分类→小说目录页→小说各章节;
与网站的交互
通常都是用户通过浏览器(当IE)访问网站(网络上的服务器)。
添加第三方模块
第三方模块添加工具pip必须在安装python3.5时有勾选安装。
4 一个简单的网络爬虫
3.1 新建项目
3.2 设置项目编译器
基本的思路:
进入一个小说的目录页,请求到目录(包括各章节的href和章节标题)的内容,提取到全部的href,再通过各href请求到各网页的内容,经过数据清洗和适当的回到,写入到一个文本文件
代码:
以上代码运行后,即可把整部小说的内容写入文本文件。
不同的网站,内面内容的写法会有差别,在提取数据和清洗数据时要做相应调整变化。
部分素材来源于网络:侵删