首页>代理ip知识与免费资源>正文
爬虫工作中常遇到的反爬措施有哪些?
发布日期:2018/9/29 9:51:36    阅读量:8987

爬虫工作的过程,就是与反爬虫作斗争的过程,可以这样说,没有遇到反爬的工程师,不是好的爬虫工程师。有很多问题我们经常遇到,今天就来简单说几个常见的反爬策略。


一、爬取某网站时,提示“由于访问频繁,需要通过验证码才能访问页面”

解决方法:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。

在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置,将setting.py中的下面两行代码里的“COOKIES_ENABLED = False” 的注释去掉即可。


二、爬取过快也会遭到封杀,设置下载延时

部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间,这样就毫无规律,不容易被发现。


三、设置用户代理池

不管爬虫策略和反反爬虫策略做的多么的好,还是必须要用到代理IP,没有代理IP,只能玩玩泥巴,寸步难行。如何搭建代理池呢?方法有很多,最直接最省力的方法就是购买代理IP,比如开心代理平台提供的动态高质量代理,是个不错的选择。