详解python爬虫系列之初识爬虫python

我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的知识的,下面我们进行我们的爬虫讲解

在进行实战之前,我们先给大家看下爬虫的一般讨论,方便大家看懂下面的实例

一、爬汽车之家

汽车之家这个网站没有做任何的防爬虫的限制,所以最适合我们来练手

1、导入我们要用到的模块

importrequestsfrombs4importBeautifulSoup2、利用requests模块伪造浏览器请求

#设置解码的方式res.encoding="gbk"4、把请求返回的对象,传递一个bs4模块,生成一个BeautifulSoup对象

soup=BeautifulSoup(res.text,"html.parser")5、这样,我们就可以使用BeautifulSoup给我们提供的方法,如下是查找一个div标签,且这个div标签的id属性为auto-channel-lazyload-atricle

#find是找到相匹配的第一个标签div=soup.find(name="div",attrs={"id":"auto-channel-lazyload-article"})#这个div是一个标签对象6、findall方法,是超找符合条件的所有的标签,下面是在步骤5的div标签内查找所有的li标签

li_list=div.find_all(name="li")7、查找li标签中的不同条件的标签

二、爬抽屉

这里我们看下如何爬抽屉

1、首先抽屉有做防爬虫的机制,我们在访问的时候必须要加一个请求头

print(chouti.cookies.get_dict())#{'gpsd':'ab141f7a741144216429b6e901da5f34','JSESSIONID':'aaaNxWlWjLLKU9CGXDyNw'}3、转换页面为一个BeautifulSoup对象

#将页面转换成一个BeautifulSoup的对象,就可以使用BeautifulSoup的方法了soup=BeautifulSoup(chouti.text,"html.parser")news_list=soup.find_all(name="div",attrs={"class":"item"})fornewsinnews_list:compont=news.find(name="div",attrs={"class":"part2"})print(compont.get("share-title"))

4、下面我们看下如何登陆抽屉

首先我们先通过get方式访问主页

最后登陆成功后,我们来实现一个点赞的操作,这里要注意

爬抽屉所有的代码如下

github的登陆是form表单做的,所以我们在登陆github的时候需要把cookies和crsf_token都带上

1、访问github的首页

3、post方式访问登陆页面,携带上用户名和密码,token和cookies

四、爬拉钩网

最后我们来爬一下拉勾网

1、首先get方式访问拉勾网的首页

data很简单,我们直接抓包就可以拿到

主要是请求头中的数据是怎么来的,下面这2个是在我们请求登陆的页面中返回的,由于这2项在script标签中,我们只能通过正则表达式来匹配获取

最后是爬拉勾网的所有的代码

以上所述是小编给大家介绍的python爬虫系列之初识爬虫详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

THE END
1.我的汽车之家—登录返回首页 微信扫码关注公众号 微信扫码 关注公众号领好礼 关注就送【15元充电礼包】 免费领取【充电秘籍大礼包】 登录后体验更多精彩 登录页改进意见 微信登录 扫码登录 验证码登录 密码登录 点击刷新 请使用微信扫码登录 点击刷新 登录 登录https://account.autohome.com.cn/
2.广州汽车网广州汽车报价广州车市广州汽车之家广州购车网是广州汽车之家,提供汽车报价,汽车导购,汽车团购,二手车,试驾评测,汽车维护等,是广州车市中最专业的网上车市,汽车网和汽车之家.http://gz.ecar168.cn/
3.汽车之家看车买车用车汽车之家官网为您提供最新看车买车用车资讯,包括:汽车资讯,新车试驾,汽车保养,汽车知识,汽车视频,汽车旅游,汽车图片,汽车报价大全,最精彩的新车新闻、行情、评测、导购内容等等,是提供信息最快最全的汽车之家官方网站。http://online5168.com/
4.?不是汽车之家太牛,而是其他网站太懒中国的汽车垂直网站的操盘手们都极其懒得动脑,不信你看看汽车之家,易车网,太平洋汽车网这前3名的汽车网站的首页,基本上都长得差不多一样,如果你把他们3个站同时打开,鼠标稍微往下拉一拉,看不到这些网站的LOGO的时候,估计没有几个人能够真正知道自己现在是在汽车之家,还是易车,或者是太平洋汽车网。 https://www.huxiu.com/article/24732.html
5.TOM汽车小鹏汽车第三季交付46533台新车 营收达101亿元 三易生活网11-24 10:00 超越豪华时代,奇瑞风云T9超长续航版全球上市,售价18.39万元 车视界11-24 08:00 江铃福特领睿插混版上市 售价为16.88-19.98万 车主之家11-23 09:00 2025款奥迪A6L正式上市 售价为42.79-65.68万 https://car.tom.com/
6.汽车之家下载app汽车之家官方免费下载2024最新安卓版v11.66.3作为垂直类汽车网站中的大佬,汽车之家和易车的内容都极其丰富,但在内容的构成上,两者还是有一定的差别。 除了与汽车有关的新闻外,汽车之家还有很多的说客文章,也就是汽车之家的自媒体平台上所发布的文章,这些文章多是一些分析评论类文章,虽然易车上也有一些,但数量上要比汽车之家少得多。 http://www.onlinedown.net/soft/248447.htm
7.网上车市VS汽车之家网上车市与汽车之家的产品定位是汽车垂直媒体,但不同的是相比与汽车门户网站的专业全面。网上车市更主打细分车型的推荐,比如豪车,皮卡等;而汽车之家是作为权威平台,打造的内容更综合,专业性更高,较为传统的汽车门户。 3.3目标用户 从使用人群的属性上来看,主要的年龄段是中青年,且男性占据了绝大多数可见关注汽车https://www.jianshu.com/p/f5e00786df40
8.易车网易车网汽车之家哪个好易车网和汽车之家区别→Maigoo实力:集车媒体、车电商、车金融、车生活为一体,从"基于内容的垂直领域公司"转型升级为"基于数据技术的"公司,2017年第一季度,汽车之家移动端网站和移动应用App的日均独立用户访问量分别约为1010万和820万。 简介:汽车网站十大品牌,美国上市公司,中国领先的汽车互联网平台,为消费者提供选车/买车/用车/换车所有环节的https://m.maigoo.com/news/486965.html