Python高级编程之反爬虫及应对方案

用户102

2023年10月27日修改

⏳

Written 10-21-2020

写在前面

爬虫是 Python 的一个常见应用场景，很多练习项目就是让大家去爬某某网站​

爬取网页的时候，你大概率会碰到一些反爬措施

这种情况下，你该如何应对呢？

本文梳理了常见的反爬措施和应对方案

接着往下看吧😜

通过User-Agent来控制访问

无论是浏览器还是爬虫程序，在向服务器发起网络请求的时候，都会发过去一个头文件：headers​

以本网页为例,点击鼠标右键,接着点击[检查],可以看到如下的示例​

这里面的大多数的字段都是浏览器向服务**表明身份**用的

对于爬虫程序来说，最需要注意的字段就是：User-Agent

很多网站都会建立**User-Agent**白名单，只有属于正常范围的**user-agent**才能够正常访问​

解决方法

可以自己设置一下**user-agent**，或者更好的是，可以从一系列的**user-agent**里随机挑出一个符合标准的使用​

❤️

实现难度：★

IP限制

如果一个固定的ip在短暂的时间内，快速大量的访问一个网站，后台管理员可以编写IP限制，不让该IP继续访问​

解决方法

比较成熟的方式是：IP代理池

Python高级编程之反爬虫及应对方案​