网络爬虫中的网络请求模块 - 开心代理IP平台|高质量代理IP|免费代理IP

代理ip知识与免费资源

代理ip文章推荐

首页>代理ip知识与免费资源>正文

网络爬虫中的网络请求模块

发布日期：2018/4/19 20:28:04 阅读量：10068

我们常说爬虫其实就是一堆的http(s)请求，找到待爬取的链接，然后发送一个请求包，得到一个返回包，当然，也有HTTP长连接(keep-alive)或H5中基于stream的websocket协议。
所以核心的几个要素就是：
1、url
2、请求header、body
3、响应herder、内容

URL
爬虫开始运行时需要一个初始url，然后会根据爬取到的html文章，解析里面的链接，然后继续爬取，这就像一棵多叉树，从根节点开始，每走一步，就会产生新的节点。为了使爬虫能够结束，一般都会指定一个爬取深度(Depth)。

Http请求
http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行，也可以说请求头中包含请求方法。

对于爬虫需要注意的是请求方法是post时，需要将请求的参数先进行urlencode后再发送，后台收到请求信息后可能会做一些校验，这可能会影响到爬取。

Basic Auth

这是一种古老的、不安全的用户验证方式，一般会有用户授权的限制，会在headers的Autheration字段里要求加入用户名密码(明文)，如果验证失败则请求就会失败，现在这种认证方式正在被淘汰。

Referer
链接的来源，通常在访问链接时，都要带上Referer字段，服务器会进行来源验证，后台通常会用此字段作为防盗链的依据。

User-Agent
后台通常会通过此字段判断用户设备类型、系统以及浏览器的型号版本。有些编程语言包里网络请求会自定义User-Agent，可以被辨别出来，爬虫中可以设置为浏览器的ua。

Cookie
一般在用户登录或者某些操作后，服务端会在返回包中包含Cookie信息要求浏览器设置Cookie，没有Cookie会很容易被辨别出来是伪造请求；
也有本地通过JS，根据服务端返回的某个信息进行处理生成的加密信息，设置在Cookie里面。

JavaScript加密操作
在进行敏感数据传输时，一般都会通过javascript进行加密，例如qq空间就会对用户登陆密码进行RSA加密后再发送给服务器，因此，爬虫在模拟登陆时需要自己去请求公钥，然后加密。

自定义字段
因为http的headers可以自定义地段，所以第三方可能会加入了一些自定义的字段名称或者字段值，这也是需要注意的。

开心代理IP平台专业提供适合爬虫工作使用的HTTP代理IP、HTTPS代理IP，欢迎咨询QQ：2873763815。

1号客服服务时间：08:30AM-21:00PM

2号客服服务时间：08:30AM-21:00PM