介绍

小小根据上次爬取经验,发现爬取的时候,信息不太完善,这次针对手机页面进行爬取。

查看手机页面

相对于pc端口的页面,手机端的页面更容易爬取。
通过网络信息,可以查看到是这个请求发起的网络信息。
查看相应的参数。
实战 | webmagic爬取实战之爬取保险经纪人信息插图
通过查看相应的参数,可以知道发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol: 
Search.CitySymbol: BeiJing
Search.ProvinceSymbol: Beijing

换城市的时候,发送该请求,可以看到使用的是拼音的简称。
实战 | webmagic爬取实战之爬取保险经纪人信息插图1

发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol: 
Search.CitySymbol: Dongguan
Search.ProvinceSymbol: Guangdong

这样就完成了最基本的json相关的数据。

postman进行基本测试

这里使用postman实现基本测试。发送的url如下
实战 | webmagic爬取实战之爬取保险经纪人信息插图2

经过测试,这个接口可以使用。

编写爬虫url爬取相关url链接

查询获取url的基本方法

这里查询获取url的基本方法,由于沃宝全是顶级的cn域名,所以这里只能采用获取所有连接+正则的方式进行匹配。
匹配效果如下
通过发送链接,可以看到有的地址没有。
查询postman,查看相关的发送请求。
实战 | webmagic爬取实战之爬取保险经纪人信息插图3
通过这样,就可以看到需要添加以下的三个参数。

webmagic 添加相关的参数

添加相关的参数以后发现请求失败。如图。
实战 | webmagic爬取实战之爬取保险经纪人信息插图4

这里由于请求出错,所以根据问题进行排查。发现需要添加三个请求头。

添加请求头

使用postman挨个测试接口。
实战 | webmagic爬取实战之爬取保险经纪人信息插图5

添加请求头

实战 | webmagic爬取实战之爬取保险经纪人信息插图6

问题依旧呈现。

搜索问题

问题搜索下来说是去掉参数Content-Length 的问题。重新再次测试。

夜晚已经很深了,明天博主将会继续进行爬取