图书行业

注册

 

发新话题 回复该主题

Python教程爬虫如何设置请求头 [复制链接]

1#

大家好,欢迎收看思路实验室出品的Python入门教程,我是室长。

在上一期我们使用requests模块获取了网页并进行了解析,但是我们做得并不够严谨,因为我们没有设置请求头。

有些同学可能要问了:我就是想打开个网页,为什么还要设置请求头?平时用浏览器看网页的时候都是直接打开链接就出网页的啊?

第一个问题,很多人可能会觉得打开一张网页就像去图书馆借一本书一样,不管你是谁,不管你在哪儿,不管你有什么样的偏好,借到的书都是一模一样的。但其实更像是去饭馆点菜,比如点了一碗豆腐脑,如果你是北方人,那么店家会给你上一碗咸豆腐脑,而如果你是南方人,那么店家会给你上一碗甜豆腐脑。某些网站如果你用电脑打开可能是一个布局,用手机打开可能就是另一个布局了。像这种关于自身要求的信息需要提前告诉服务器,服务器才能按照你的需求给你返回量身定做的网页。而这里关于自身要求的信息就是请求头。

而在另一方面,服务器也可以通过请求头来判断这个客户是正常的浏览器还是爬虫,如果请求头没写或者写得不对,服务器可能就不会给你返回正常的网页。而如何将请求头写对则是爬虫的一大难点。

第二个问题,实际上我们在使用浏览器看网页的时候,浏览器已经自动地帮我们设置好了请求头。而使用requests模块则需要手动的设置。

既然浏览器帮我们设置好了请求头,我们能不能看一下呢?以Chrome浏览器为例,按F12打开开发模式,选到“网络”选项卡,随便打开一个网页:

点击

分享 转发
TOP
发新话题 回复该主题