-
32025年5月
-
262025年4月
-
272025年3月
-
282025年2月
-
162025年1月
-
282024年4月
-
302024年3月
-
292024年2月
-
312024年1月
-
312023年12月
-
302023年11月
-
312023年10月
-
302023年9月
-
312023年8月
-
352023年7月
-
312023年6月
-
312023年5月
-
302023年4月
-
312023年3月
-
282023年2月
-
312023年1月
-
312022年12月
-
302022年11月
-
312022年10月
-
302022年9月
-
312022年8月
-
322022年7月
-
292022年6月
-
322022年5月
-
302022年4月
-
332022年3月
-
312022年2月
-
372022年1月
-
382021年12月
-
382021年11月
-
402021年10月
-
432021年9月
-
372021年8月
-
442021年7月
-
442021年6月
-
432021年5月
-
342021年4月
-
312021年3月
-
292021年2月
-
352021年1月
-
422020年12月
-
402020年11月
-
482020年10月
-
522020年9月
-
852020年8月
-
752020年7月
-
802020年6月
-
782020年5月
-
772020年4月
-
432020年3月
-
362020年2月
-
452020年1月
-
562019年12月
-
712019年11月
-
612019年10月
-
562019年9月
-
532019年8月
-
362019年7月
-
362019年6月
-
382019年5月
-
402019年4月
-
352019年3月
-
342019年2月
-
442019年1月
-
392018年12月
-
402018年11月
-
392018年10月
-
392018年9月
-
452018年8月
-
452018年7月
-
392018年6月
-
512018年5月
-
492018年4月
-
342018年3月
-
282018年2月
-
482018年1月
-
732017年12月
-
7292017年11月
-
7442017年10月
-
2892017年9月
-
12017年8月
随着互联网的普及和发展,各种数据集中在互联网上,面对如此庞大的数据信息,如何进行采集、分析、归纳及分类呢,人工方法肯定不可取,效率太差。这时候Python爬虫开始展露头角,并且迅速成为最受欢迎的爬虫开发语言。
但是,在采集信息时我们经常会遇到一些问题,比如403禁止访问错误。遇到这个问题我们应该如何解决呢?
在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块。urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=http//blog.xxxx.net/qysh123。对于这个连接就有可能出现403禁止访问的问题,而解决这个问题,需要以下几步骤:
span style=font-size18pxreq = urllib2.Request(url)
req.add_header(User-Agent,Mozilla/5.0 (Windows NT 6.3 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36)
req.add_header(GET,url)
req.add_header(Host,blog.csdn.net)
req.add_header(Referer,http//blog.xxxx.net/)/span
其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到,然后html=urllib2.urlopen(req)
print html.read()
就可以把网页代码全部下载下来,而没有了403禁止访问的问题。
其实对于这个问题,可以封装成函数,供以后调用方便使用,这里由于篇幅问题就不贴出全部代码了。其中,用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。
当然,如果访问频率过快的话,有些网站还是会过滤的,要解决这个问题,一是降低访问频率,但意味着效率下降,二是采用大量的代理IP,这是使用的比较多的方法。
开心代理IP平台专业提供HTTP代理IP服务,有效地解决了爬虫工作受限制问题,HTTP代理IP的出现,使得爬虫工作效率更为高效,更为轻松,更为容易,有效地促进了大数据时代的进程和发展。咨询QQ:2873762815