Python爬虫之自动爬取某车之家各车销售数据python

为了演示方式,大家可以直接打开上面这个网址,然后拖到全部口碑位置,找到我们本次采集需要的字段如下图所示:

采集字段

我们进行翻页发现,浏览器网址发生了变化,大家可以对下如下几页的网址找出规律:

通过简单的测试,发现似乎不存在反爬,那就简单了。

我们先引入需要用到的库:

importrequestsimportpandasaspdimporthtmlfromlxmlimportetreeimportre然后创建一个数据请求的函数备用:

由于需要进行翻页,这里我们可以先通过re正则表达式获取总页码。通过查看网页数据,我们发现总页码可以通过如下方式获取:

try:pages=int(re.findall(r'共(\d+)页',r)[0])#如果请求不到页数,则表示该车型下没有口碑数据except:print(f'{name}没有数据!')continue

总页码采集

关于待采集字段信息,我们发现都在节点div[@class="mouthcon-cont-left"]里,可以先定位这个节点数据,然后再进行逐一解析。

待采集字段信息所在节点

此外,我们发现每一页最多15个车型口碑数据,因此我们每页可以定位15个待采集信息数据集,遍历采集代码:

由于没啥反爬,这里直接将采集到的数据转化为pandas.DataFrame类型,然后存储为xlsx文件即可。

整个爬虫过程比较简单,采集下来的数据也比较规范,以本文案例奥迪Q5L示例如下:

THE END
1.汽车之家汽车之家为您提供最新汽车报价,汽车图片,汽车价格大全,最精彩的汽车新闻、行情、评测、导购内容,是提供信息最快最全的中国汽车网站https://www.autohome.com.cn/
2.汽车之家图片下载批量下载批量保存教程使用啄木鸟下载器可批量下载 汽车之家 中图片。 前提条件 1、windows操作系统 2、framwork 4.8 测试网址 https://car.autohome.com.cn/photo/30765/1/3928302.html https://car.autohome.com.cn/photo/series/51325/53/6614593.html 操作步骤 1、打开啄木鸟下载器全能版,网站选【汽车之家】,属于杂类系列。 http://www.tianxisoft.com/176.htm
3.汽车之家AUTOHOME直播直播2017年10月17日 14:54汽车之家AUTOHOME 关注 汽车之家2017年法兰克福车展探馆直播解读最新车型——宝马X3 最专业的原创汽车解析,最接地气的视频直播,更多精彩请认准汽车之家唯一官方指定账号。 彩色的檬 2019年11月20日 12:06汽车 关注 我发布了文章:《学画画》 https://www.douyu.com/565752
4.Python爬虫汽车之家全车型!你又钟意的车子吗!汽车之家车型csdn目的:汽车之家官网所有的车型以及他的基本参数这些,我们知道每个车的ID不一样,那我们找到所有的ID,在找到他们的基本参数那就不是问题了。 分析网站: 闲话少说:第一种方向:是按照品牌一级一级往下找,比较繁琐; 第二种方向:按照车型对比界面,找到JSON提取数据,这个比较容易点 https://blog.csdn.net/weixin_43881394/article/details/108887854
5.汽车之家S(02518)股票价格行情买4 - - (-) 买5 - - (-) 买6 - - (-) 买7 - - (-) 买8 - - (-) 买9 - - (-) 买10 - - (-) 公司简介 汽车之家 所属行业:线上零售商 总股本(万股):50938.76 港股股本(万股):2019.44 每手股数:100 市盈率:13.98 30天均价(元):53.475 网址:ir.autohome.com.cn http://quote.eastmoney.com/hk/02518.html
6.汽车之家5亿人都在用的汽车Appcom.cubic.autohome 应用权限 查看更多 手机屏幕截图应用介绍 汽车之家,每天超过千万用户访问的汽车网站~为消费者提供选车、买车、用车、换车等所有环节准确、快捷的一站式服务5亿家人与你一起使用汽车之家App。***网友为何都用汽车之家App***热点资讯专业全面 — 专业编辑团队,众多名家创作优质内容;海量用户https://app.mi.com/details?id=com.cubic.autohome