尴尬!Meta 的 AI 安全系统被 “空格”攻击轻松绕过
创始人
2024-07-30 11:38:19
0

最近,Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模型,旨在检测和应对提示注入攻击。这类攻击通常是通过特殊的输入,让大型语言模型(LLM)表现得不当或者规避安全限制。不过,令人惊讶的是,这款新系统自身却也暴露了被攻击的风险。

图源备注:图片由AI生成,图片授权服务商Midjourney

Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模型一起推出的,主要是为了帮助开发者过滤掉那些可能会导致问题的提示。大型语言模型通常会处理大量的文本和数据,如果不加以限制,它们可能会随意重复危险或敏感的信息。因此,开发者们在模型中加入了 “护栏”,用于捕捉那些可能导致伤害的输入和输出。

然而,使用 AI 的用户们似乎将绕过这些护栏视为一项挑战,采用提示注入和越狱的方式来让模型忽略自身的安全指令。最近,有研究人员指出,Meta 的 Prompt-Guard-86M 在处理一些特殊输入时显得不堪一击。例如,当输入 “Ignore previous instructions” 并在字母之间加上空格,Prompt-Guard-86M 竟然会乖乖地忽视先前的指令。

这项发现是由一位名叫 Aman Priyanshu 的漏洞猎人提出的,他在分析 Meta 模型和微软的基准模型时,发现了这一安全漏洞。Priyanshu 表示,微调 Prompt-Guard-86M 的过程对单个英文字母的影响非常小,因此他能够设计出这种攻击方式。他在 GitHub 上分享了这一发现,指出通过简单字符间隔和去除标点符号的方式,可以让分类器失去检测能力。

而 Robust Intelligence 的首席技术官 Hyrum Anderson 也对此表示赞同,他指出,这种方式的攻击成功率几乎接近100%。虽然 Prompt-Guard 只是防线的一部分,但这个漏洞的曝光确实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出回应,但有消息称他们正在积极寻找解决方案。

相关内容

声网参编《移动AI愿景与发...
6月25日,2026上海世界移动通信大会(MWC上海)——移动AI...
2026-06-29 21:51:38
世界杯32强出炉!12大A...
快科技6月28日消息,今日,2026年美加墨世界杯J组小组赛收官。...
2026-06-29 01:34:50
AI(人工智能)也有“人格...
作者 | 阿童木 人工智能(AI,Artificial Intel...
2026-06-29 01:28:54
从第一性原理看机器人AI:...
机器之心编译 过去几年,机器人行业最常见的高光时刻,几乎都发生在演...
2026-06-28 21:24:04
原创 ...
AI最大的问题,就是幻觉太多,还有会无底线地讨好你。 不管你...
2026-06-28 21:22:37

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
8月20日基金净值:前海开源中... 证券之星消息,8月20日,前海开源中国稀缺资产混合A最新单位净值为1.43元,累计净值为1.43元,...