爬虫工作中常遇到的反爬措施有哪些？ - 开心代理IP平台|高质量代理IP|免费代理IP

代理ip知识与免费资源

代理ip文章推荐

首页>代理ip知识与免费资源>正文

爬虫工作中常遇到的反爬措施有哪些？

发布日期：2018/9/29 9:51:36 阅读量：9778

爬虫工作的过程，就是与反爬虫作斗争的过程，可以这样说，没有遇到反爬的工程师，不是好的爬虫工程师。有很多问题我们经常遇到，今天就来简单说几个常见的反爬策略。

一、爬取某网站时，提示“由于访问频繁，需要通过验证码才能访问页面”

解决方法：网站通过用户的Cookie信息对用户进行识别与分析，所以要防止目标网站识别我们的会话信息。

在Scrapy中，我们可以在爬虫项目的setting.py文件中进行设置，将setting.py中的下面两行代码里的“COOKIES_ENABLED = False” 的注释去掉即可。

二、爬取过快也会遭到封杀，设置下载延时

部分网站通过分析我们的爬取频率对爬虫进行禁止或限制，所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间，这样就毫无规律，不容易被发现。

三、设置用户代理池

不管爬虫策略和反反爬虫策略做的多么的好，还是必须要用到代理IP，没有代理IP，只能玩玩泥巴，寸步难行。如何搭建代理池呢？方法有很多，最直接最省力的方法就是购买代理IP，比如开心代理平台提供的动态高质量代理，是个不错的选择。

1号客服服务时间：08:30AM-21:00PM