-
22025年5月
-
262025年4月
-
272025年3月
-
282025年2月
-
162025年1月
-
282024年4月
-
302024年3月
-
292024年2月
-
312024年1月
-
312023年12月
-
302023年11月
-
312023年10月
-
302023年9月
-
312023年8月
-
352023年7月
-
312023年6月
-
312023年5月
-
302023年4月
-
312023年3月
-
282023年2月
-
312023年1月
-
312022年12月
-
302022年11月
-
312022年10月
-
302022年9月
-
312022年8月
-
322022年7月
-
292022年6月
-
322022年5月
-
302022年4月
-
332022年3月
-
312022年2月
-
372022年1月
-
382021年12月
-
382021年11月
-
402021年10月
-
432021年9月
-
372021年8月
-
442021年7月
-
442021年6月
-
432021年5月
-
342021年4月
-
312021年3月
-
292021年2月
-
352021年1月
-
422020年12月
-
402020年11月
-
482020年10月
-
522020年9月
-
852020年8月
-
752020年7月
-
802020年6月
-
782020年5月
-
772020年4月
-
432020年3月
-
362020年2月
-
452020年1月
-
562019年12月
-
712019年11月
-
612019年10月
-
562019年9月
-
532019年8月
-
362019年7月
-
362019年6月
-
382019年5月
-
402019年4月
-
352019年3月
-
342019年2月
-
442019年1月
-
392018年12月
-
402018年11月
-
392018年10月
-
392018年9月
-
452018年8月
-
452018年7月
-
392018年6月
-
512018年5月
-
492018年4月
-
342018年3月
-
282018年2月
-
482018年1月
-
732017年12月
-
7292017年11月
-
7442017年10月
-
2892017年9月
-
12017年8月
大数据时代来临,网络爬虫日益火爆,不少朋友都纷纷开始学习,准备入行了,那么在学习爬虫开发之前需要先了解哪些知识呢?
一、HTTP基本原理
由客户端向服务端发起,可以分为4个部分:请求方法(Request Methon)、请求的网址(Resquest URL)、请求头(Request Headers)、请求体(Resquest Body)。
1、请求方法常见的有两种:GET和POST,还有PUT、DELETE、HEAD以及OPTIONS等方法,这里就不详细介绍了;
2、请求网址:URL,统一资源定位符,它可以唯一确定我们想要的资源;
3、请求头:用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等;
4、请求体:一般承载内容是POST请求的表单数据,而对于GET请求,请求体则为空 。
二、网页结构分析
网页大致可分为三大部分——HTML(骨架)、CSS(皮肤)和JavaScript(肌肉)。
1、HTML:描述网页的语言,即超文本标记语言,不同的元素通过不同的标签来表示;
2、CSS:全称叠层样式表,是目前唯一的网页页面排版样式标准;
3、JavaScript是一种脚本语言,实现实时、动态、交互的页面功能。
三、爬虫基本原理
爬虫的工作流程大致可以分为四步:获取网页,提取信息,保存数据,自动化程序。
1、获取网页:获取网页源码;
2、提取信息:分析网页内容;
3、保存数据:保存到文本或者数据库中;
4、自动化程序:代替人操作。
四、代理IP的选择
代理IP是爬虫工作过程中必不可少的辅助工具之一,高效稳定的代理IP是保障爬虫高效率运行的基础。代理IP按匿名度来分可以分为:高匿名代理IP、普通匿名代理IP、透明代理IP;按照通信协议来分可以分为:HTTP/HTTPS代理IP,Socks代理IP。
在选择代理IP的时候,最好是要选择高匿代理IP,根据需要选择HTTP或者Socks5,大多数为HTTP代理,在选择的时候需要注意IP日流水量、速度、稳定、有效率、价格等因素,这里就不一一说明了。