爬虫的工作原理及三大模块 - 开心代理IP平台|高质量代理IP|免费代理IP

代理ip知识与免费资源

代理ip文章推荐

首页>代理ip知识与免费资源>正文

爬虫的工作原理及三大模块

发布日期：2018/4/20 20:02:39 阅读量：10381

在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的爬虫一般会包含如下三个模块：

一、网络请求模块
二、爬取流程控制模块
三、内容分析提取模块

网络请求
我们常说爬虫其实就是一堆的http(s)请求，找到待爬取的链接，然后发送一个请求包，得到一个返回包，当然，也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议。

流程控制
所谓爬取流程，就是按照什么样的规则顺序去爬。在爬取任务不大的情况下，爬取的流程控制不会太麻烦，很多爬取框架都已经帮你做了如scrapy，只需要自己实现解析的代码。

内容分析提取
请求headers的Accept-Encoding字段表示浏览器告诉服务器自己支持的压缩算法（目前最多的是gzip），如果服务器开启了压缩，返回时会对响应体进行压缩，爬虫需要自己解压。

开心代理IP平台专业提供HTTP/HTTPS代理IP，非常适合爬虫工作，高效稳定、安全性好、操作简单，是爬虫工作者的首选代理IP服务供应商。

1号客服服务时间：08:30AM-21:00PM

2号客服服务时间：08:30AM-21:00PM