尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过_linux资讯

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

创始人

2024-07-30 11:38:19

0次

最近，Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模型，旨在检测和应对提示注入攻击。这类攻击通常是通过特殊的输入，让大型语言模型（LLM）表现得不当或者规避安全限制。不过，令人惊讶的是，这款新系统自身却也暴露了被攻击的风险。

图源备注：图片由AI生成，图片授权服务商Midjourney

Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模型一起推出的，主要是为了帮助开发者过滤掉那些可能会导致问题的提示。大型语言模型通常会处理大量的文本和数据，如果不加以限制，它们可能会随意重复危险或敏感的信息。因此，开发者们在模型中加入了 “护栏”，用于捕捉那些可能导致伤害的输入和输出。

然而，使用 AI 的用户们似乎将绕过这些护栏视为一项挑战，采用提示注入和越狱的方式来让模型忽略自身的安全指令。最近，有研究人员指出，Meta 的 Prompt-Guard-86M 在处理一些特殊输入时显得不堪一击。例如，当输入 “Ignore previous instructions” 并在字母之间加上空格，Prompt-Guard-86M 竟然会乖乖地忽视先前的指令。

这项发现是由一位名叫 Aman Priyanshu 的漏洞猎人提出的，他在分析 Meta 模型和微软的基准模型时，发现了这一安全漏洞。Priyanshu 表示，微调 Prompt-Guard-86M 的过程对单个英文字母的影响非常小，因此他能够设计出这种攻击方式。他在 GitHub 上分享了这一发现，指出通过简单字符间隔和去除标点符号的方式，可以让分类器失去检测能力。

而 Robust Intelligence 的首席技术官 Hyrum Anderson 也对此表示赞同，他指出，这种方式的攻击成功率几乎接近100%。虽然 Prompt-Guard 只是防线的一部分，但这个漏洞的曝光确实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出回应，但有消息称他们正在积极寻找解决方案。

Meta 漏洞限制检测护栏模型方式攻击空格安全系统 Prompt

上一篇：字节跳动申请企业AI应用平台HiAgent商标

下一篇：绿联科技：公司产品NAS私有云存储有AI智能管理模块

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

相关内容

热门资讯