代理ip知识与免费资源
-
302023年5月
-
302023年4月
-
312023年3月
-
282023年2月
-
312023年1月
-
312022年12月
-
302022年11月
-
312022年10月
-
302022年9月
-
312022年8月
-
322022年7月
-
292022年6月
-
322022年5月
-
302022年4月
-
332022年3月
-
312022年2月
-
372022年1月
-
382021年12月
-
382021年11月
-
402021年10月
-
432021年9月
-
372021年8月
-
442021年7月
-
442021年6月
-
432021年5月
-
342021年4月
-
312021年3月
-
292021年2月
-
352021年1月
-
422020年12月
-
402020年11月
-
482020年10月
-
522020年9月
-
852020年8月
-
752020年7月
-
802020年6月
-
782020年5月
-
772020年4月
-
432020年3月
-
362020年2月
-
452020年1月
-
562019年12月
-
712019年11月
-
612019年10月
-
562019年9月
-
532019年8月
-
362019年7月
-
362019年6月
-
382019年5月
-
402019年4月
-
352019年3月
-
342019年2月
-
442019年1月
-
392018年12月
-
402018年11月
-
392018年10月
-
392018年9月
-
452018年8月
-
452018年7月
-
392018年6月
-
512018年5月
-
492018年4月
-
342018年3月
-
282018年2月
-
482018年1月
-
732017年12月
-
7292017年11月
-
7442017年10月
-
2892017年9月
-
12017年8月
首页>代理ip知识与免费资源>正文
网络爬虫没有代理IP真的不行吗?
发布日期:2019/1/14 16:17:36 阅读量:8534
有朋友问:爬虫必须用代理IP吗?很多人认为爬虫必须要用代理IP,没有代理IP将寸步难行;也有人说,代理IP是非必须的。那么他们这样认为的理由都是什么呢?
有朋友说他用的火车头采集器,用来采集一些文章,然后筛选符合自己要求的进行加工,他从来就没有用过代理IP,一天采集量一万篇左右。他认为没有代理IP照爬不误。
有朋友说他自己写爬虫程序,公司的任务一天要爬取几十万个页面,有时任务多的时候一天要上百万,爬着爬着IP就被封了,没有代理IP根本不行,他认为没有代理ip爬虫将寸步难行。
很显然,他们讲的都很有道理,都用亲身体验来证明了自己的观点。其实,爬虫程序从本质上来说也是个访问网页的用户而已,只不过是个不那么守规矩的特殊用户,服务器一般很不欢迎这样的特殊用户总是用各种手段发现和禁止。最常见的就是判断你访问的频率,因为普通人访问网页的频率是不会很快的,如果发现某个ip访问的过快就会将此ip封禁。
当任务量不是很大的时候,也就是第一位朋友那样,可以慢慢的爬,频率不是很快,在目标服务器看来可以忍受,不影响正常运行,这样就不会封IP,所以他可以不用代理IP完成每天的任务量。
当任务量比较大的时候,比如第二位朋友,一天几十万上百万的数据,慢慢爬就完不成任务了,加速爬的话,目标服务器压力太大,就会封IP,同样完不成任务。那怎么办呢,只有用代理IP来解决了。
举个例子,一个IP短时间访问100次,会被目标服务器认为访问过快,导致IP被封,而使用10个代理IP短时间访问10次的话,就不会被认为过快从而被封了。当任务量庞大的时候,使用代理IP往往可以事半功倍,这就是为什么有人认为没有代理IP就没有网络爬虫的原因了。