有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。
本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。
一:爬虫的目标:
我们的目标是
点击找车,然后出现如下图
我们要把图中的信息抓取到
二:实现过程
我们选择宝马5系然后点击找车
注意宝马5系的data-value是65
如下图
因为这个网页需要做翻页,我们就点击翻页。然后抓取到了一个url链接的请求方式。
可以判断出来的是PageIndex是页面,表示第几页。SeriesId是车系
直接上代码
在这里不做解析。
三:总结
有人要问了SeriesId=65怎么处理,这个很简单,把汽车之家所有的车系都封装成一个字典格式数据就可以啦,CityId,ProvinceId也是同理。
爬虫的难点不是网站的一些反爬措施,而是一个请求有几十个url链接,能准确的找到自己需要的链接,有用的链接才是最重要的。
THE END