Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体
创始人
2025-05-09 14:47:29
0

IT之家 5 月 9 日消息,Meta AI 公司最新推出 LlamaFirewall,应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护。

随着大型语言模型(LLMs)嵌入 AI 智能体并被广泛应用于高权限场景,安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API,一旦被恶意利用,后果不堪设想。

传统的安全机制,如聊天机器人内容审核或硬编码模型限制,已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战,开发了 LlamaFirewall。

IT之家援引博文介绍,LlamaFirewall 采用分层框架,包含三个专门的防护模块:

  • PromptGuard 2 是一个基于 BERT 架构的分类器,能实时检测越狱行为和提示注入,支持多语言输入,其 86M 参数模型性能强劲,22M 轻量版本则适合低延迟部署。
  • AlignmentCheck 是一种实验性审计工具,通过分析智能体内部推理轨迹,确保行为与用户目标一致,特别擅长检测间接提示注入。
  • CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全模式,支持多种编程语言,能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务领域的提示注入攻击。

结果显示,PromptGuard 2(86M)将攻击成功率(ASR)从 17.6% 降至 7.5%,任务实用性损失极小;AlignmentCheck 进一步将 ASR 降至 2.9%;整体系统将 ASR 降低 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色,精准度达 96%,召回率(recall) 79%,响应时间适合生产环境实时使用。

相关内容

终端 AI 奇点已至,英特...
导语:英特尔正通过其XPU混合架构、AI算力以及开放的软件生态来引...
2025-10-15 23:15:42
8大AI技术、8大AI体验...
10月15日,全球领先的AI终端生态公司荣耀正式发布了备受期待的年...
2025-10-15 22:22:07
华为盘古Ultra-MoE...
据华为计算官微消息,10月15日,openPangu-Ultra-...
2025-10-15 22:17:53
半年49个项目落地!“AI...
杭州湾生命科技园(受访者供图) 距离第一届“AI宁波”大赛闭幕仅半...
2025-10-15 19:15:29
优刻得与全球AI卓越中心签...
每经AI快讯,10月15日,据优刻得云计算消息,近日,优刻得与全球...
2025-10-15 14:45:27
德施曼闪耀2025中国国际...
2025年10月10日至12日,第二十二届中国国际五金展(CIHS...
2025-10-15 14:13:07

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...