企业如何有效的防爬虫?
创始人
2024-03-12 18:30:56
0

防爬虫,简单来说,就是在尽量减少对正常用户的干扰的情况下尽可能的加大爬虫的成本。

而反防爬虫,或者说制造隐蔽性强的爬虫,就是尽量模拟正常用户的行为。

这两者是动态博弈的。大公司基本都有防爬的项目,以保护数据安全。

你去试试爬几个大网站就知道了。
在这里插入图片描述

比如,github用的是ratelimit,就搜索接口而言,对非登录用户限制非常严格,一小时只允许几十次搜索。而对登录账号则很宽松。这样就把行为统计规约到了账号上,毕竟换账号成本比ip高。

而谷歌则更复杂,比如它会在网页中执行一段js,js中做一些校检,然后服务器端将请求数据对比,这样那些不支持动态解析的爬虫就都死了。

另外谷歌也会维护一份爬虫ip列表,这样即使你使用爬虫ip也很容易死,当然很多收费爬虫ip使用的是一些黑科技,确实可以绕过这份列表。

阿里内部也有一套专门的防爬系统,用的一个比较复杂的建模策略,能够直接无视爬虫ip的更换,从行为模式上检测出爬虫。比如一些特定数据受到非正常量级的请求,那么就可以判定有人在做坏事了。

当然防爬有误报是正常的,所以一般反爬系统都要做一个容限,只有超过一定阀值了才会bang掉你。即使bang掉了,一般也是让你填一个验证码。无论你是做验证码识别,还是花钱人肉打码,他的目的其实都达到了:增加爬取者的成本。

所以简单来说,一个成功的爬虫,需要这几个特点:

模拟浏览器提交

简单的,使用webkit来提交数据,这个基本可以过大多数浏览源检测的反爬系统了。

但是有的反爬系统检测浏览源的时候,会根据大众浏览器的一些特性,比如IE,Firefox,Chrome等的私有js函数来判定浏览器,这样webkit,以及一些封装好的无界面浏览器也被当成爬虫了。当然,你也可以利用调用chromuim来爬取数据,但是这个资源开销就更大了。

控制单ip/账号频率

挂私有爬虫ip来爬的就不说了,大家都会用,但是对于一般人来说,几万ip差不多是极限了,所以一个ip还是得多次请求,账号同理。而控制了爬取速度,则意味着爬完一圈需要更多时间。时间都是成本。

控制爬取策略

如果简单的只对目标数据进行爬取,那么如果反爬系统对访问概况和用户行为进行分析,其实很简单就能判定爬虫的那堆ip:你除了这堆数据什么都没访问,一看就不是正常用户。

当然策略这个东西,就需要更多的博弈了。爬虫要增加迷惑度,需要去访问一些无关的东西,最后是研究正常用户的访问流程,然后模拟一遍。再者,控制速度。毕竟反爬系统的统计区间是肯定有限制的,不可能拿一个月的数据都分析一遍找出爬虫。

以上,其实懂了爬虫的策略,反爬策略也很明朗了。

爬虫成本

反爬系统的存在,意义就在于增加这个成本。当然也需要衡量自身的成本,毕竟不能本末倒置,反爬成本太高就没价值了。

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
群晖外网访问终极解决方法:IP... 写在前面的话 受够了群晖的quickconnet的小水管了,急需一个新的解决方法&#x...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
Azure构建流程(Power... 这可能是由于配置错误导致的问题。请检查构建流程任务中的“发布构建制品”步骤,确保正确配置了“Arti...