AI公司不断开发新爬虫绕过阻拦 网站运营跟不上
创始人
2024-07-31 10:10:49
0

在网路建立的早期,大家有了一个不成文的协议,即一个名为“robot.txt”的文本文件——也就是拦截列表中将决定谁能够访问你的网站,这主要针对机器人/爬虫。一般网站主要面向搜索引擎开放,以让搜索引擎带来流量。但这个不成文的约定正在被人工智能公司打破。

已经有许多网站为了保护权益正在试图阻止一家名为 Anthropic 的 AI 公司抓取网站内的内容。然而随着该公司不断开发新的爬虫,来不及更新“robot.txt”文件的网站成了被盗用资源的受害者。

根据 404 Media 采访跟踪网络爬虫和抓取工具网站的 Dark Visitors 运营者,他在帮助其他网站运营者更新“robot.txt”期间发现,现状非常混乱。匿名运营着说道:“代理生态系统瞬息万变,因此网站所有者基本不可能手动跟上。”

拿 Anthropic 距离,一些热门网站例如路透社等在 robot.txt 中组织了“ANTHROPIC-AI”和“CLAUDE-WEB”两个爬虫,他们曾由 Anthropic 的 Claude AI 聊天机器人使用,但目前该公司最活跃的爬虫实际上是“CLAUDEBOT”,因此这些网站都不会阻拦该爬虫。其他数百个复制粘贴拦截列表的网站也未能阻止该公司。

404 Media 采访了许多网络行业从业者,他们均表示面对 AI 公司的这种行为,鼓励网站积极屏蔽此类机器人/爬虫。网络安全公司 StackAware 首席执行官 Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽对象,并说道:“如果它们最终不存在,那么阻止它们也不会产生任何影响。”

他还表示该屏蔽列表说到底也不过是互联网的一个约定俗成,“阻止 AI 公司的代理依赖于 AI 公司尊重 robot.txt 文件,并且你还需要知道所有的 AI 抓取代理。对于大多数公司来说,这种情况的可能性很低,因此我预计更多的创作者会将他们的内容转移为付费观看,以防止无限制的抓取。”

相关内容

日铁CEO:在这些国家已经...
【文/观察者网 柳白】 完成对美钢的后,日铁有些“飘了”。据《日...
2025-07-07 10:42:31
AI又整活儿!千字长文秒变...
播客新玩法这样把文章“聊活” 作者/ IT时报记者 潘少颖 编辑/...
2025-07-04 21:42:49
锐捷网络:推出"...
金融界7月4日消息,有投资者在互动平台向锐捷网络提问:董秘你好,请...
2025-07-04 16:13:30
黄山谷捷接待3家机构调研,...
2025年7月3日,黄山谷捷披露接待调研公告,公司于7月3日接待开...
2025-07-03 17:42:12
光弘科技:公司并未向小米A...
光弘科技7月3日在互动平台表示,公司并未向 小米AI眼镜提供感知元...
2025-07-03 17:12:52
百度的AI为什么没人用,中...
牛文文 创业黑马集团董事长&创始人 AI, 第一个颠覆就是搜索。 ...
2025-07-03 17:12:38

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...