Python爬虫之自动爬取某车之家各车销售数据python

为了演示方式,大家可以直接打开上面这个网址,然后拖到全部口碑位置,找到我们本次采集需要的字段如下图所示:

采集字段

我们进行翻页发现,浏览器网址发生了变化,大家可以对下如下几页的网址找出规律:

通过简单的测试,发现似乎不存在反爬,那就简单了。

我们先引入需要用到的库:

importrequestsimportpandasaspdimporthtmlfromlxmlimportetreeimportre然后创建一个数据请求的函数备用:

由于需要进行翻页,这里我们可以先通过re正则表达式获取总页码。通过查看网页数据,我们发现总页码可以通过如下方式获取:

try:pages=int(re.findall(r'共(\d+)页',r)[0])#如果请求不到页数,则表示该车型下没有口碑数据except:print(f'{name}没有数据!')continue

总页码采集

关于待采集字段信息,我们发现都在节点div[@class="mouthcon-cont-left"]里,可以先定位这个节点数据,然后再进行逐一解析。

待采集字段信息所在节点

此外,我们发现每一页最多15个车型口碑数据,因此我们每页可以定位15个待采集信息数据集,遍历采集代码:

由于没啥反爬,这里直接将采集到的数据转化为pandas.DataFrame类型,然后存储为xlsx文件即可。

整个爬虫过程比较简单,采集下来的数据也比较规范,以本文案例奥迪Q5L示例如下:

THE END
1.奥迪q5报价汽车之家懂车帝提供奥迪q5报价汽车之家的详细内容,懂车帝是一个汽车资讯平台,懂车更懂你。我们提供最新汽车报价,汽车图片,汽车价格大全,行情、评测、导购等内容,看车选车买车就上懂车帝。https://www.dongchedi.com/tag/pgc/9963088
2.鑫丽宸灬HD汽车之家试驾奥迪A8超清【鑫丽宸灬HD】汽车之家 试驾奥迪A8 超清 发布【鑫丽宸灬HD】汽车之家 试驾奥迪A8 超清 剧情介绍:【鑫丽宸灬HD】汽车之家 试驾奥迪A8 超清https://m.tv.sohu.com/us/151860069/55774204.shtml
3.奥迪(进口)奥迪(进口)汽车报价奥迪(进口)全部车型奥迪是著名的汽车开发商和制造商,其标志为四个圆环。现为大众汽车公司的子公司,总部设在德国的英戈尔施塔特,主要产品有A1系列、A2系列、A3系列、A4系列、A5系列、A6系列、A8系列、Q7(SUV)、R系、敞篷车及运动车系列等。 汽车品牌 奥迪是一个国际著名豪华汽车品牌。其代表的高技术水平、质量标准、创新能力、以及经https://www.16888.com/f/57234/
4.平行进口车加版奥迪Q7 报价行情图库 加版福特野马 报价行情图库 加版LX570 报价行情图库 中东版LX570 报价行情图库 美规保时捷卡宴 报价行情图库 汽车知识进入汽车知识频道>> 汽车技术 极佳的机械素质 走进福特锐界L杭州工厂 “7年之痒”解读“出保就坏”背后原因3月16日 http://www.qc188.com/