先说说爬虫,爬虫常被用来抓取特定网站网页的HTML数据,定位在后端数据的获取,而对于网站而言,爬虫给网站带来流量的同时,一些设计不好的爬虫由于爬得太猛,导致给网站来带很大的负担,当然再加上一些网站并不希望被爬取,所以就出现了许许多多的反爬技术。
1.requests
模块安装方法:
pip3installrequests2、beautisoup模块
软件安装方法:
pip3installbeautifulsoup4或pip3installbs43、lxml模块
再跟据上面查到的版本信息,找到下面对应的版本进行安装。
Requests是使用Apache2Licensed许可证的基于Python开发的HTTP库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。
1、GET请求
2、POST请求
3、requests属性
response=requests.get('URL')response.text#获取文本内容response.content#获取文本内容,字节response.encoding#设置返回结果的编码response.aparent_encoding#获取网站原始的编码response.status_code#状态码response.cookies.get_dict()#cookies4、关系和方法
该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。
使用示例:
1.name,标签名称
2.attr,标签属性
3.children,所有子标签
4.children,所有子子孙孙标签
5.clear,将标签的所有子标签全部清空(保留标签名)
6.decompose,递归的删除所有的标签
7.extract,递归的删除所有的标签,并获取删除的标签
8.decode,转换为字符串(含当前标签);decode_contents(不含当前标签)
9.encode,转换为字节(含当前标签);encode_contents(不含当前标签)
10.find,获取匹配的第一个标签
11.find_all,获取匹配的所有标签
12.has_attr,检查标签是否具有该属性
13.get_text,获取标签内部文本内容
14.index,检查标签在某标签中的索引位置
15.is_empty_element,是否是空标签(是否可以是空)或者自闭合标签,
判断是否是如下标签:'br','hr','input','img','meta','spacer','link','frame','base'