如何解决爬虫工作中遇到的403错误 - 开心代理IP平台|高质量代理IP|免费代理IP

代理ip知识与免费资源

代理ip文章推荐

首页>代理ip知识与免费资源>正文

如何解决爬虫工作中遇到的403错误

发布日期：2018/5/11 9:08:32 阅读量：10475

随着互联网的普及和发展，各种数据集中在互联网上，面对如此庞大的数据信息，如何进行采集、分析、归纳及分类呢，人工方法肯定不可取，效率太差。这时候Python爬虫开始展露头角，并且迅速成为最受欢迎的爬虫开发语言。

但是，在采集信息时我们经常会遇到一些问题，比如403禁止访问错误。遇到这个问题我们应该如何解决呢？

在python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止，要解决这个问题，需要用到python的模块urllib2模块。urllib2模块是属于一个进阶的爬虫抓取模块，有非常多的方法，比方说连接url=http//blog.xxxx.net/qysh123。对于这个连接就有可能出现403禁止访问的问题，而解决这个问题，需要以下几步骤：
　　
span style=font-size18pxreq = urllib2.Request(url)
req.add_header(User-Agent,Mozilla/5.0 (Windows NT 6.3 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36)
req.add_header(GET,url)
req.add_header(Host,blog.csdn.net)
req.add_header(Referer,http//blog.xxxx.net/)/span

其中User-Agent是浏览器特有的属性，通过浏览器查看源代码就可以查看到,然后html=urllib2.urlopen(req)
print html.read()

就可以把网页代码全部下载下来，而没有了403禁止访问的问题。

其实对于这个问题，可以封装成函数，供以后调用方便使用，这里由于篇幅问题就不贴出全部代码了。其中，用到了random随机函数，自动获取已经写好的浏览器类型的User-Agent信息，在自定义函数中需要写出自己的Host,Referer,GET信息等，解决这几个问题，就可以顺利访问了，不再出现403访问的信息。

当然，如果访问频率过快的话，有些网站还是会过滤的，要解决这个问题，一是降低访问频率，但意味着效率下降，二是采用大量的代理IP，这是使用的比较多的方法。

开心代理IP平台专业提供HTTP代理IP服务，有效地解决了爬虫工作受限制问题，HTTP代理IP的出现，使得爬虫工作效率更为高效，更为轻松，更为容易，有效地促进了大数据时代的进程和发展。咨询QQ：2873762815

1号客服服务时间：08:30AM-21:00PM

2号客服服务时间：08:30AM-21:00PM