详解python爬虫系列之初识爬虫python

我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的知识的,下面我们进行我们的爬虫讲解

在进行实战之前,我们先给大家看下爬虫的一般讨论,方便大家看懂下面的实例

一、爬汽车之家

汽车之家这个网站没有做任何的防爬虫的限制,所以最适合我们来练手

1、导入我们要用到的模块

importrequestsfrombs4importBeautifulSoup2、利用requests模块伪造浏览器请求

#设置解码的方式res.encoding="gbk"4、把请求返回的对象,传递一个bs4模块,生成一个BeautifulSoup对象

soup=BeautifulSoup(res.text,"html.parser")5、这样,我们就可以使用BeautifulSoup给我们提供的方法,如下是查找一个div标签,且这个div标签的id属性为auto-channel-lazyload-atricle

#find是找到相匹配的第一个标签div=soup.find(name="div",attrs={"id":"auto-channel-lazyload-article"})#这个div是一个标签对象6、findall方法,是超找符合条件的所有的标签,下面是在步骤5的div标签内查找所有的li标签

li_list=div.find_all(name="li")7、查找li标签中的不同条件的标签

二、爬抽屉

这里我们看下如何爬抽屉

1、首先抽屉有做防爬虫的机制,我们在访问的时候必须要加一个请求头

print(chouti.cookies.get_dict())#{'gpsd':'ab141f7a741144216429b6e901da5f34','JSESSIONID':'aaaNxWlWjLLKU9CGXDyNw'}3、转换页面为一个BeautifulSoup对象

#将页面转换成一个BeautifulSoup的对象,就可以使用BeautifulSoup的方法了soup=BeautifulSoup(chouti.text,"html.parser")news_list=soup.find_all(name="div",attrs={"class":"item"})fornewsinnews_list:compont=news.find(name="div",attrs={"class":"part2"})print(compont.get("share-title"))

4、下面我们看下如何登陆抽屉

首先我们先通过get方式访问主页

最后登陆成功后,我们来实现一个点赞的操作,这里要注意

爬抽屉所有的代码如下

github的登陆是form表单做的,所以我们在登陆github的时候需要把cookies和crsf_token都带上

1、访问github的首页

3、post方式访问登陆页面,携带上用户名和密码,token和cookies

四、爬拉钩网

最后我们来爬一下拉勾网

1、首先get方式访问拉勾网的首页

data很简单,我们直接抓包就可以拿到

主要是请求头中的数据是怎么来的,下面这2个是在我们请求登陆的页面中返回的,由于这2项在script标签中,我们只能通过正则表达式来匹配获取

最后是爬拉勾网的所有的代码

以上所述是小编给大家介绍的python爬虫系列之初识爬虫详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

THE END
1.新车试驾车家号发现车生活160.8万播放/汽车之家精选 GO车扫一扫 6769万播放/GO车情报员 擎商横评 215.9万播放/擎商 琪实该选它 443.7万播放/琪车人 超级鉴赏家 1.3亿播放/家家试驾 Kiss or Diss 1692.6万播放/司机的自我修养 懂车之道试车 201.7万播放/懂车之道 蜗牛实验室 https://chejiahao.autohome.com.cn/column/2755
2.2024汽车之家app下载最新版汽车之家最新版给大家带来2024年最新汽车报价及图片,作为汽车之家官方网手机版app,这个全新的版本从车盲到专家,同样的车型不同的价格,是您必备的私人用车管家,全方位帮助您更好的交流驾驶心得!喜欢就来下载体验呗! 汽车之家app客户端介绍: 它来同名网站自汽车之家官方推出的手机汽车之家手机app,汽车之家app根据汽http://www.2265.com/soft/16008.html&wd=&eqid=84b2bb520008bffb0000000665292af9
3.你留在汽车之家的电话号码,5年被“卖”了96亿打开汽车之家,选择一款喜欢的车型,点击获取底价,在弹出的页面输入“姓名”、“手机号”等信息,这样的“询价”操作,意味着你正在将自己的信息无偿交给平台,而平台会把这些信息有偿提供给第三方、每年获得数十亿的收入。 你的信息很值钱,甚至可以为上市公司汽车之家带来近百亿的收入。 https://www.iyiou.com/p/94819.html
4.二手车之家app下载安装最新版二手车之家appv8.67.0安卓版4、之后进入到账号安全的页面中有个人信息管理帐号注销、修改密码、更换手机号功能,我们点击【账号注销】; 5、在账号注销的页面中有删除当前应用服务痕迹和注销汽车之家账号功能,在这里点击【注销汽车之家账号】; 6、最后点击过后来到注销的页面中输入上校验码之后点击【确定注销】即可; http://qqtn.com/sj/140489.html
5.汽车之家官网版下载汽车之家11.61.5官网正版下载汽车之家官网版是一种非常好用的汽车资料软件,这里面有超多的汽车资料可以找到,使用这些资料可以进行快速的找寻想要的汽车,这里面有超多的汽车种类可以找到,可以满足不同用户的需求,这里面有超多的汽车社区可以加入,用户之间可以在这里面进行讨论,赶紧来使用吧。 汽车之家官网版怎么用 1、新手用户可以在找寻自己的社https://app.ali213.net/aznew/617143.html
6.天津汽车网天津汽车报价平行进口车天津汽车之家天津购车网是天津汽车之家,提供汽车报价,汽车导购,汽车团购,二手车,试驾评测,汽车维护等,汇聚天津平行进口车商家及报价,是天津车市中最专业的网上车市,汽车网和汽车之家.http://tianjin.ecar168.cn/
7.汽车之家app官方正版下载汽车之家软件2023最新版v11.56.7汽车之家app作为一款关于汽车的手机软件,拥有全方位、技术专业的汽车资讯全部内容,新版本添加减价排名榜,车型车型频道栏目大重做。汽车之家论坛电脑版本为您带来最新汽车报价,汽车图片,汽车价格大全,最精彩纷呈的汽车新闻、市场行情、测评、导购全部内容,是具备消息最快最全的国内汽车网站。为消费者在选车、购车、用车和https://www.doyo.cn/app/642.html
8.?不是汽车之家太牛,而是其他网站太懒中国的汽车垂直网站的操盘手们都极其懒得动脑,不信你看看汽车之家,易车网,太平洋汽车网这前3名的汽车网站的首页,基本上都长得差不多一样,如果你把他们3个站同时打开,鼠标稍微往下拉一拉,看不到这些网站的LOGO的时候,估计没有几个人能够真正知道自己现在是在汽车之家,还是易车,或者是太平洋汽车网。 https://www.huxiu.com/article/24732.html
9.爬取汽车之家车型配置信息Maplefeng爬取汽车之家车型配置信息 回到顶部 一、需求 获取指定品牌的所有车型配置信息,并保存到excel中。 流程大致思路: 1.获取品牌id:brand_id 2.通过品牌id获取车型id:series_id 3.获取车型配置页面 4.解析配置页面内容(这步最复杂,使用了之前一些大神的代码)https://www.cnblogs.com/angelyan/p/14306705.html
10.汽车之家看车买车用车汽车之家官网为您提供最新看车买车用车资讯,包括:汽车资讯,新车试驾,汽车保养,汽车知识,汽车视频,汽车旅游,汽车图片,汽车报价大全,最精彩的新车新闻、行情、评测、导购内容等等,是提供信息最快最全的汽车之家官方网站。http://online5168.com/
11.李想:汽车之家和理想制造汽车创始人(三)2008年的“逼宫“事件最终以邵震、兰庆等人相继离职而收场,次年邵震、兰庆重组团队上线了”卡车之家“,模式完全复制汽车之家,至今你打开卡车之家的页面,都和汽车之家一模一样,连Logo都相似。2015年,卡车之家在新三板挂牌上市,时至今日,邵震也算是在这一领域成就了一番事业。我相信李想与邵震再见面,也一定会相逢http://www.360doc.com/content/20/1105/13/72271024_944234856.shtml
12.加速未来!汽车之家App应用性能优化总结与后续展望持续优化平台架构,制定系统化的优化改进方案,以达到汽车之家App闪退率<=0.08%,App页面秒开率>=98%,App启动2s达标率>=98%,H5 1.5s打开率>=70%,主件卡顿率<=1%,严重卡顿率<=0.01%的目标。具体措施如下: 闪退问题:深入系统源码解决系统闪退问题,制定系统性内存优化方案,解决内存OOM崩溃,Native底层崩溃攻克, 并https://www.51cto.com/article/761107.html
13.python爬取汽车之家(汽车授权经销商)前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入 一:爬虫的目标: 打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面 https://blog.csdn.net/fei347795790/article/details/99081830
14.Python汽车之家2020全系车型参数(包含历史车型)最新闲来无事研究了一下车之家页面class 字体混淆* 在这里插入图片描述 思路: 获取车型参数页面源码 解析车型混淆字体js数据 解析车型参数json数据 匹配样式文件与json数据 将混淆后的字体替换为正常字体 效果: 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 https://www.jianshu.com/p/01422ee0ebcd