META开源Llamafirewall保护工具有助于开发安全的AI智
作者: 365bet亚洲体育 点击次数: 发布时间: 2025-05-12 10:46

5月9日的Home报道说,Meta AI公司最近推出了Llamafirewall,以应对AI代理威胁的持续新兴模式,并为生产环境中的AI代理提供安全水平保护。由于大型语言模型(LLM)嵌入了AI代理中,并广泛用于高度私密的场景中,因此安全风险增加了。这些代理可以阅读电子邮件,生成代码并调用API。当被恶意剥削时,后果是无法想象的。传统的安全机制,例如聊天机器人内容审核或硬编码的模型限制,无法再满足AI代理的需求,具有广泛的能力。 Meta AI针对三个主要挑战开发了Llamafirewall:注射攻击,行为代理与用户的目标不一致以及生成不安全的代码。它引用了一篇博客文章,并介绍了Llamafirewall采用了一个层次结构框架,其中包括三个特殊保护模块:提示Guard 2是分类baSED在Bert的体系结构上可以实时看到越狱和迅速注入的行为,它支持多个性能,而22m轻量级版本则适合低亮度部署。 AlignmentCheck是一种实验工具,可以通过审查轨迹剂来确保行为符合用户的目标,并特别有效地发现间接注射提示。 CodeShield是一种静态检查引擎,可以评估代码生成的LLM中不安全的模式,支持许多编程语言,并可以在提交代码或实施之前获得常见的弱点,例如SQL注入。 Meta在AgentDojo的基准测试中审查了Llamafirewall,模仿了对97个工作领域的注射攻击。结果表明,促使2(8600万)将成功率(ASR)从17.6%降低到7.5%,而工作实用性损失最少。 AlignmentCheck将ASR进一步降低到2.9%;通用系统将ASR降低90%to 1.75%,略微降低至42.7%。 CodeShield在不安全的代码数据集中的性能也很好,精度为96%,召回率为79%,并且响应时间适合在生产环境中实时使用。