主要内容
若你正在利用 AI 进行构建,或试图抵御该技术不太好的一面,Meta 刚刚推出了新的 Llama 安全工具。伴随这些改进的安全工具而来的,还有 Meta 提供的新资源,旨在帮助网络安全团队利用 AI 进行防御。这是他们推动让开发和使用 AI 对涉及其中的每个人都更安全的一部分努力。
使用 Llama 模型系列的开发者现在有了一些升级的工具可供使用。你可以直接从 Meta 自己的 Llama Protections 页面获取这些最新的 Llama 保护工具,或者在许多开发者常去的地方找到它们:Hugging Face 和 GitHub。
首先是 Llama Guard 4,可将其视为 Meta 针对 AI 的可定制安全过滤器的进化版本。这里的重要消息是,它现在是多模态的,不仅能理解和应用安全规则于文本,还能应用于图像。这在 AI 应用变得更具视觉性时至关重要。这个新版本也被融入到 Meta 全新的 Llama API 中,目前处于有限的预览阶段。
还有 LlamaFirewall,这是 Meta 拼图中的一块新内容,旨在充当 AI 系统的安全控制中心。它有助于管理协同工作的不同安全模型,并与 Meta 的其他保护工具相连接。其工作是发现并阻止让 AI 开发者夜不能寐的风险,如旨在欺骗 AI 的巧妙“提示注入”攻击、潜在的可疑代码生成或 AI 插件的危险行为。
Meta 还对其 Llama Prompt Guard 进行了调整。主要的 Prompt Guard 2(86M)模型现在更擅长嗅出那些讨厌的越狱尝试和提示注入。更有趣的是,引入了 Prompt Guard 2 22M,这是一个小得多、更敏捷的版本。Meta 认为,与更大的模型相比,它可以将延迟和计算成本降低多达 75%,而不会牺牲太多检测能力。对于需要更快响应或预算紧张的人来说,这是一个受欢迎的新增功能。
但 Meta 不仅关注 AI 构建者,还关注数字安全前线的网络防御者。他们听到了对更好的 AI 驱动工具以帮助抗击网络攻击的呼声,并正在分享一些旨在实现这一目标的更新。CyberSec Eval 4 基准套件已更新。这个开源工具包帮助组织确定 AI 系统在安全任务方面实际上有多好。最新版本包括两个新工具:CyberSOC Eval,在网络安全专家 CrowdStrike 的帮助下构建,该框架专门测量 AI 在真实安全运营中心(SOC)环境中的表现。它旨在更清晰地展示 AI 在威胁检测和响应方面的有效性。基准本身即将推出。AutoPatchBench 测试 Llama 和其他 AI 在坏人利用之前自动发现和修复代码中安全漏洞的能力。
为了帮助将这些工具交到需要的人手中,Meta 启动了 Llama Defenders Program,似乎是为了给合作伙伴公司和开发者提供对一系列 AI 解决方案的特殊访问权限——一些是开源的,一些是早期访问的,一些可能是专有技术——所有这些都针对不同的安全挑战。作为其中的一部分,Meta 正在分享他们内部使用的一个 AI 安全工具:自动化敏感文档分类工具。它会自动在组织内部的文档上贴上安全标签。为什么?为了阻止敏感信息外泄,或防止其被意外输入到 AI 系统(如在 RAG 设置中)中而可能被泄露。他们还在解决 AI 生成的假音频问题,这种假音频在诈骗中越来越多地被使用。Llama 生成音频检测器和 Llama 音频水印检测器正在与合作伙伴共享,以帮助他们在潜在的钓鱼电话或欺诈中发现 AI 生成的声音。