网络爬虫中的内容分析提取模块 - 开心代理IP平台|高质量代理IP|免费代理IP

代理ip知识与免费资源

代理ip文章推荐

首页>代理ip知识与免费资源>正文

网络爬虫中的内容分析提取模块

发布日期：2018/4/16 10:03:12 阅读量：9164

请求headers的Accept-Encoding字段表示浏览器告诉服务器自己支持的压缩算法（目前最多的是gzip），如果服务器开启了压缩，返回时会对响应体进行压缩，爬虫需要自己解压。

过去我们常需要获取的内容主要来源于网页html文档本身，也就是说，我们决定进行抓取的时候，都是html中包含的内容，但是随着这几年web技术飞速的发展，动态网页越来越多，尤其是移动端，大量的SPA应用，这些网站中大量的使用了ajax技术。

我们在浏览器中看到的网页已不全是html文档说包含的，很多都是通过javascript动态生成的，一般来说，我们最终眼里看到的网页是Html文档本身包含内容。

这种情况是最容易解决的，一般来讲基本上是静态网页已经写死的内容，或者动态网页，采用模板渲染，浏览器获取到HTML的时候已经是包含所有的关键信息，所以直接在网页上看到的内容都可以通过特定的HTML标签得到。

这种情况解析也是很简单的，一般的方法有一下几种：

CSS选择器
XPATH（这个值得学习一下）
正则表达式或普通字符串查找
JavaScript代码加载内容

一般来说有两种情况：一种情况是在请求到html文档时，网页的数据在js代码中，而并非在html标签中，之所以我们看到的网页是正常的，那是因为，其实是由于执行js代码动态添加到标签里面的。

所以这个时候内容在js代码里面的，而js的执行是在浏览器端的操作，所以用程序去请求网页地址的时候，得到的response是网页代码和js的代码，所以自己在浏览器端能看到内容，解析时由于js未执行，肯定找到指定HTML标签下内容肯定为空，如百度的主页就是这种，这个时候的处理办法，一般来讲主要是要找到包含内容的js代码串，然后通过正则表达式获得相应的内容，而不是解析HTML标签。

另一种情况是在和用户交互时，JavaScript可能会动态生成一些dom，如点击某个按钮弹了一个对话框等；对于这种情况，一般这些内容都是一些用户提示相关的内容，没什么价值，如果确实需要，可以分析一下js执行逻辑，但这样的情况很少。

Ajax／Fetch异步请求
这种情况是现在很常见的，尤其是在内容以分页形式显示在网页上，并且页面无刷新，或者是对网页进行某个交互操作后，得到内容。对于这种页面，分析的时候我们要跟踪所有的请求，观察数据到底是在哪一步加载进来的。然后当我们找到核心的异步请求的时候，就只需抓取这个异步请求就可以了，如果原始网页没有任何有用信息，也没必要去抓取原始网页了。

1号客服服务时间：08:30AM-21:00PM

2号客服服务时间：08:30AM-21:00PM