菜鸟博客
菜鸟站长

【Python爬虫学习笔记】HTTP基本原理

记录下学习python爬虫的笔记,摘自:崔庆才的《52讲轻松搞定网络爬虫》

打开网页,F12开发者模式下,NetWork列表里面的各列的含义


Name:请求的名称。
Status:响应的状态码。
Type:请求的文档类型。
Initiator:请求源。用来标记请求是由哪个对象或进程发起的。
Size:从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源,则该列会显示 from cache。
Time:发起请求到获取响应所用的总时间。
Waterfall:网络请求的可视化瀑布流。

点进去一个请求,请求头的常用介绍:

请求头,用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent 等。

一些请求头介绍:

Accept:请求报头域,用于指定客户端可接受哪些类型的信息。
Accept-Language:指定客户端可接受的语言类型。
Accept-Encoding:指定客户端可接受的内容编码。
Host:用于指定请求资源的主机 IP 和端口号,其内容为请求 URL 的原始服务器或网关的位置。从 HTTP 1.1 版本开始,请求必须包含此内容。
Cookie:也常用复数形式 Cookies,它的主要功能是维持当前访问会话。
Referer:用来标识这个请求是从哪个页面发过来的,可用于做来源统计、防盗链处理等。
User-Agent:简称 UA,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。
Content-Type:也叫互联网媒体类型(Internet Media Type)或者 MIME 类型,在 HTTP 协议消息头中,它用来表示具体请求中的媒体类型信息。例如,text/html 代表 HTML 格式,image/gif 代表 GIF 图片,application/json 代表 JSON 类型,更多对应关系可以查看此对照表:http://tool.oschina.net/commons。

因此,请求头是请求的重要组成部分,在写爬虫时,大部分情况下都需要设定请求头。

一些响应头介绍:

Date:标识响应产生的时间。
Last-Modified:指定资源的最后修改时间。
Content-Encoding:指定响应内容的编码。
Server:包含服务器的信息,比如名称、版本号等。
Content-Type:文档类型,指定返回的数据类型是什么,如 text/html 代表返回 HTML 文档,application/x-javascript 则代表返回 JavaScript 文件,image/jpeg 则代表返回图片。
Set-Cookie:设置 Cookies。响应头中的 Set-Cookie 告诉浏览器需要将此内容放在 Cookies 中,下次请求携带 Cookies 请求。
Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。

赞(0)
未经允许不得转载:不吃香菜 » 【Python爬虫学习笔记】HTTP基本原理

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址