request

前提摘要

想写下这一篇的原因还是起源于在网上下载图片的时候一张一张下载的太慢而且麻烦,所以就想着写一个东西,

能够快速批量下载。于是,就有了爬虫的想法,当然,以我现有水平只能够用request去爬取,爬虫的相关内容
会在以后慢慢更新的
一句话,我用爬虫就是用来下载资源的~
后面会更新相关内容来完善。。。。

注意:以下内容都是以python3为基础实现

简单介绍

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

服务器的交互方式

http中与服务器定义的几种基本交互方式,get、post、delete、put、head和options。get请求常用于查询获取资源信息,常见表现形式url传递参数数据,

以?开始&分隔参数值。post请求向服务器提交数据。put请求向服务器端发送信息修改数据。delete请求向服务器发送信息删除数据。

基础

先要了解request是一个模块,在python中就是一个库,用来抓取网上资源的
下载requests模块   若是安装过python3,则命令端输入`pip install requests`即可

用法

先导入`requests`模块(这个模块名称为requests)只不过平时都说是request了,这一点不能弄错
import requests
与请求网址交互
1
2
3
4
requests.get("url")
requests.post("url")
requests.put("url")
request.delete("url")
说一下常用的GET请求: 两种方法: 1.直接传: 例如:requests.get("http://www.baidu.com") 2.间接传: 例如:url = "http://www.baidu.com" requests.get(url=url) 间接传的好处是可以添加其他参数

常用属性和方法

1
2
3
4
5
6
7
url		#打印返回地址
text #以文本方式返回html源码
content #以字节流返回html源码
cookies #返回cookies信息
status_code #打印状态码
headers #返回html头信息
encoding #处理字符集

get请求回复对象所包含的属性:

1
2
3
4
5
6
7
8
resp = requests.get()
resp.text 获取网站源码(字符串类型)
resp.encoding 访问或定制编码方式,如一般所得网页源码出现乱码的情况下可以设置:resp.encoding='gb2312'
resp.url 获取请求的url
resp.content 获取网站源码,但响应的是字节类型
resp.status_code 响应的状态码
resp.headers 响应的头信息
resp.json() 获取json数据

---------------- The End ----------------
0%