HTTP常见面试题

HTTP 基本概念
HTTP 是什么?
HTTP 是超文本传输协议,也就是HyperText Transfer Protocol。
能否详细解释「超文本传输协议」?
HTTP 的名字「超文本协议传输」,它可以拆成三个部分:
- 超文本
- 传输
- 协议

超文本
HTTP 传输的内容是「超文本」。我们先来理解「文本」,在互联网早期的时候只是简单的字符文字,但现在「文本」的涵义已经可以扩展为图片、视频、压缩包等,在 HTTP 眼里这些都算作「文本」。
再来理解「超文本」,它就是超越了普通文本的文本,它是文字、图片、视频等的混合体,最关键有超链接,能从一个超文本跳转到另外一个超文本。
HTML就是一种最常见的超文本了,它本身只是纯文字文件,但内部用很多标签定义了图片、视频等的链接,再经过浏览器的解释,呈现给我们的就是一个文字、有画面的网页了。
传输
所谓的「传输」,很好理解,就是把一堆东西从 A 点搬到 B 点,或者从 B 点 搬到 A 点。别轻视了这个简单的动作,它至少包含两项重要的信息。
HTTP 协议是一个双向协议。我们在上网冲浪时,浏览器是请求方 A,百度网站就是应答方 B。双方约定用 HTTP 协议来通信,于是浏览器把请求数据发送给网站,网站再把一些数据返回给浏览器,最后由浏览器渲染在屏幕,就可以看到图片、视频了。

数据 虽然是在 A 和 B 之间传输,但允许中间有中转或接力。就好像第一排的同学想传递纸条给最后一排的同学,那么传递的过程中就需要经过好多个同学(中间人),这样的传输方式就从A > B,变成了A > N > M > B。而在 HTTP 里,需要中间人遵从 HTTP 协议,只要不打扰基本的数据传输,就可以添加任意额外的东西。
通过传输,我们可以进一步理解HTTP。HTTP 是一个在计算机世界里专门用来在两点之间传输数据的约定和规范。
协议
在生活中,我们也能随处可见「协议」,例如:
刚毕业时会签一个「三方协议」;
找房子时会签一个「租房协议」;
生活中的协议,本质上与计算机中的协议是相同的。
「协」字,代表的意思是必须有两个以上的参与者。例如三方协议里的参与者有三个:你、公司、学校三个;租房协议里的参与者有两个:你和房东。
「议」字,代表的意思是对参与者的一种行为约定和规范。例如三方协议里规定试用期期限、毁约金等;租房协议里规定租期期限、每月租金金额、违约如何处理等。
针对 HTTP 协议,我们可以这么理解。HTTP 是一个用在计算机世界里的协议。它使用计算机能够理解的语言确立了一种计算机之间交流通信的规范(两个以上的参与者),以及相关的各种控制和错误处理方式(行为约定和规范)。
总结
HTTP是一个在计算机世界里专门在「两点」之间「传输」文字、图片、音频、视频等「超文本」数据的「约定和规范」。
Q: 那「HTTP 是用于从互联网服务器传输超文本到本地浏览器的协议」,这种说法正确吗?
A: 这种说法是不正确的。因为也可以是Server > Server,所以采用两点之间的描述会更准确。
HTTP 常见的状态码有哪些

1xx 类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少 。
2xx 类状态码表示服务器成功处理了客户端的请求,也是我们最愿意看到的状态。
- 200 OK 是最常见的成功状态码,表示一切正常。如果是非
HEAD请求,服务器返回的响应头都会有 body 数据。 - 204 No Content 也是常见的成功状态码,与 200 OK 基本相同,但响应头没有 body 数据。
- 206 Partial Content 是应用于 HTTP 分块下载或断点续传,表示响应返回的 body 数据并不是资源的全部,而是其中的一部分,也是服务器处理成功的状态。
3xx 类状态码表示客户端请求的资源发生了变动,需要客户端用新的 URL 重新发送请求获取资源,也就是重定向。
- 301 Moved Permanently 表示永久重定向,说明请求的资源已经不存在了,需改用新的 URL 再次访问。
- 302 Found 表示临时重定向,说明请求的资源还在,但暂时需要用另一个 URL 来访问。
301 和 302 都会在响应头里使用字段Location,指明后续要跳转的 URL,浏览器会自动重定向新的 URL。 - 304 Not Modified 不具有跳转的含义,表示资源未修改,重定向已存在的缓冲文件,也称缓存重定向,也就是告诉客户端可以继续使用缓存资源,用于缓存控制。
4xx 类状态码表示客户端发送的报文有误,服务器无法处理,也就是错误码的含义。
- 400 Bad Request 表示客户端请求的报文有错误,但只是个笼统的错误。
- 403 Forbidden 表示服务器禁止访问资源,并不是客户端的请求出错。
- 404 Not Found 表示请求的资源在服务器上不存在或未找到,所以 无法提供给客户端。
5xx 类状态码表示客户端请求报文正确,但是服务器处理时内部发生了错误,属于服务器端的错误码。
- 500 Internal Server Error 与 400 类型,是个笼统通用的错误码,服务器发生了什么错误,我们并不知道。
- 501 Not Implemented 表示客户端请求的功能还不支持,类似“即将开业,敬请期待”的意思。
- 502 Bad Gateway 通常是服务器作为网关或代理时返回的错误码,表示服务器自身工作正常,访问后端服务器发生了错误。
- 503 Service Unavailable 表示服务器当前很忙,暂时无法响应客户端,类似“网络服务正忙,请稍后重试”的意思。
HTTP协议中常见字段有哪些
Host :客户端发送请求时,用来指定服务器的域名。
Host: www.example.com

Content-Length : 服务器在返回数据时,会有 Content-Length 字段,表明本次回应的数据长度。
Content-Length: 1000

Connection : 字段最常用于客户端要求服务器使用「HTTP 长连接」机制,以便其他请 求复用。
Connection: keep-alive

HTTP 长连接的特点是,只要任意一端没有明确提出断开连接,则保持 TCP 连接状态。
HTTP/1.1 版本的默认连接都是长连接,但为了兼容老版本的 HTTP,需要指定 Connection: Keep-Alive 才能开启长连接。

开启了 HTTP Keep-Alive 机制后, 连接就不会中断,而是保持连接。当客户端发送另一个请求时,它会使用同一个连接,一直持续到客户端或服务器端提出断开连接。
Content-Type : 字段用于服务器回应时,告诉客户端,本次数据是什么格式。
Content-Type: text/html; Charset=utf-8
客户端发起请求时,可能通过Accepte: */* 来声明自己可以接受哪些数据格式

Content-Encoding : 字段说明数据的压缩方法。表示服务器返回的数据使用了什么压缩格式.
Content-Encoding: gzip
客户端发起请求时,可能通过 Accept-Encoding: gzip, deflate 来声明自己可以接受哪些压缩方法。

GET 和 POST 有什么区别
根据 RFC 规范, GET 从服务器获取指定的资源,这个资源可以是静态的文本、页面、图片视频等。
GET 请求的参数位置一般是写在 URL 中,URL 规定只能支持 ASCII,所以 GET 请求的参数只允许 ASCII 字符 ,而且浏览器会对 URL 的长度有限制(HTTP协议本身对 URL长度并没有做任何规定)。
比如,你打开我的文章,浏览器就会发送 GET 请求给服务器,服务器就会返回文章的所有文字及资源。

根据 RFC 规范,POST 是根据请求负荷(body报文)对指定的资源做出处理,具体的处理方式根据资源类型而不同。
POST 请求携带数据的位置一般是写在报文 body 中,body 中的数据可以是任意格式的数据,只要客户端与服务端协商好即可,而且浏览器不会对 body 大小做限制。
