首页 > 学习笔记 > Python > Python 爬虫实例
2019
02-19

Python 爬虫实例

需求:爬取页面的固定数据写入excel文档。

页面形式:主页面为文件目录(点击页数跳页,此时主页面url不变,并且点击目录进入详情页面),每个目录有单独的url,爬取的信息在每个目录的详情页面,且形式大部分固定。

使用工具:python、内置库(requests、urllib、re、bs4、json、openpyml、time、random等)

构思:在主页面先爬取每个目录的url,形成一个列表,然后再遍历列表,下载每一个目录的详情页面,按照解析静态网页的方法抓取信息。

问题:

1.发现主页面中的目录每天都在更新,并且有页数限定,换页时主页面的url不变。

2.访问每个页面有时候超时

解决方案:

1.浏览器主页面(F12开发者模式,network),点击换页,发现请求操作,在python中发送request请求,主要目的就是在开发者模式下观察发送请求的网址以及发送的数据(json或formdata)。参考:

https://blog.csdn.net/dawn_yue/article/details/78352335

2.逐步调试获取每个目录url和从每个下载的静态页面解析数据,最后合在一起。

代码如下:

1.mainControll.py:总调度程序

2.getUrl:获取指定页面中每个目录的URL,形成列表并返回

3.getContent:解析每个页面,获取特定数据

4.writeExcel:将得到的数据写入excel文件

 

 

最后编辑:
作者:admin
头像
这个作者貌似有点懒,什么都没有留下。

留下一个回复

你的email不会被公开。