首页>代理ip知识与免费资源>正文
爬虫应该如何选择代理IP
发布日期:2018/1/15 19:55:32    阅读量:8897

很多爬虫工作者在采集网站数据时,经常遇到IP被目标网站封禁的问题,这个时候就需要代理IP闪亮登场了。那么,我们应该如何选择爬虫代理IP,才能保证数据采集的高效和稳定呢? 

首先,我们根据http代理的匿名性可以分为以下几种:   


一、 透明代理(Transparent Proxies):目标服务器能够检测到真实的源IP。   

目标服务器根据HTTP请求头进行检测,判断依据: 
REMOTE_ADDR = 代理服务器 IP  
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头) 
HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)
 PS:该类型代理不适合用于数据采集。
   
二、(普通)匿名代理(Anonymous Proxies):目标服务器无法检测到真实的源IP,但能够检测到使用了代理。   
检测依据:  
REMOTE_ADDR = 代理服务器 IP  
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)  
HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP) 
PS:该类型代理可以用于数据采集,但有被检测到的风险。 
  
三. 高匿名代理(High Anonymity Proxies -Elite proxies) 目标服务器无法检测到你在是使用代理。   

检测依据:  
REMOTE_ADDR = 代理服务器 IP HTTP_VIA = 值为空或无此头  
HTTP_X_FORWARDED_FOR = 没数值或无此头  
PS:该类型的代理非常适合用户数据采集。站大爷代理IP平台提供的短效优质代理和一手私密代理全部是高质量的高匿http代理ip。   

另外,不使用代理时发出的头: REMOTE_ADDR =真实源 IP ,HTTP_VIA = 值为空或无此头, HTTP_X_FORWARDED_FOR = 没数值或无此头。 
不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。   

所以,在我们选择爬虫代理ip时,最好选择安全稳定的高匿代理ip,比如开心代理IP平台的动态高质量代理。开心代理IP平台专业提供HTTP/HTTPS代理IP,欢迎咨询QQ:2873763815。