爬虫与反爬虫技术简介_编程开发

爬虫与反爬虫技术简介

创始人

2024-05-27 19:17:24

0次

互联网的大数据时代的来临，网络爬虫也成了互联网中一个重要行业，它是一种自动获取网页数据信息的爬虫程序，是网站搜索引擎的重要组成部分。通过爬虫，可以获取自己想要的相关数据信息，让爬虫协助自己的工作，进而降低成本，提高业务成功率和提高业务效率。

本文一方面从爬虫与反反爬的角度来说明如何高效的对网络上的公开数据进行爬取，另一方面也会介绍反爬虫的技术手段，为防止外部爬虫大批量的采集数据的过程对服务器造成超负载方面提供些许建议。

爬虫指的是按照一定规则自动抓取万维网信息的程序，本次主要会从爬虫的技术原理与实现，反爬虫与反反爬虫两个方面进行简单的介绍。
一、爬虫的技术原理与实现
1.1 爬虫的定义
爬虫分为通用爬虫和聚焦爬虫两大类，前者的目标是在保持一定内容质量的情况下爬取尽可能多的站点，比如百度这样的搜索引擎就是这种类型的爬虫，如图1是通用搜索引擎的基础架构：

首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL；

将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取；

将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址；

网页下载器通过网站服务器对网页进行下载，下载的网页为网页文档形式；

对网页文档中的URL进行抽取，并过滤掉已经抓取的URL；

对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。一、爬虫的技术原理与实现
1.1 爬虫的定义
爬虫分为通用爬虫和聚焦爬虫两大类，前者的目标是在保持一定内容质量的情况下爬取尽可能多的站点，比如百度这样的搜索引擎就是这种类型的爬虫，如图1是通用搜索引擎的基础架构：

首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL；

将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取；

将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址；

网页下载器通过网站服务器对网页进行下载，下载的网页为网页文档形式；

对网页文档中的URL进行抽取，并过滤掉已经抓取的URL；

对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。
网页与其对应的源代码如图5所示，对于网页上的数据，假定我们想要爬取排行榜上每个app的名称以及其分类。

我们首先分析网页源代码，发现可以直接在网页源代码中搜索到“抖音”等app的名称，接着看到app名称、app类别等都是在一个

标签里，所以我们只需要请求网页地址，拿到返回的网页源代码，然后对网页源代码进行正则匹配，提取出想要的数据，保存下来即可。
在了解具体的反爬虫措施之前，我们先介绍下反爬虫的定义和意义，限制爬虫程序访问服务器资源和获取数据的行为称为反爬虫。爬虫程序的访问速率和目的与正常用户的访问速率和目的是不同的，大部分爬虫会无节制地对目标应用进行爬取，这给目标应用的服务器带来巨大的压力。爬虫程序发出的网络请求被运营者称为“垃圾流量”。开发者为了保证服务器的正常运转或降低服务器的压力与运营成本，不得不使出各种各样的技术手段来限制爬虫对服务器资源的访问。
所以为什么要做反爬虫，答案是显然的，爬虫流量会提升服务器的负载，过大的爬虫流量会影响到服务的正常运转，从而造成收入损失，另一方面，一些核心数据的外泄，会使数据拥有者失去竞争力。

常见的反爬虫手段，如图7所示。主要包含文本混淆、页面动态渲染、验证码校验、请求签名校验、大数据风控、js混淆和蜜罐等，其中文本混淆包含css偏移、图片伪装文本、自定义字体等，而风控策略的制定则往往是从参数校验、行为频率和模式异常等方面出发的。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：Flutter Button 实例

下一篇：TiDB架构分析

爬虫与反爬虫技术简介

相关内容

热门资讯