这款AI智能体被设计为不会失控

2026-02-26

长期安全工程师Niels Provos今日推出开源安全AI助手IronCurtain，旨在解决OpenClaw等AI代理失控引发的混乱。该助手通过隔离虚拟机运行，将用户自然语言政策转化为可执行安全规则，介导代理与系统交互，还支持模型独立、审计日志及政策迭代优化。

- IronCurtain：开源安全AI助手，防止代理失控

- 政策机制：自然语言指令转可执行安全规则

- 技术特性：模型独立+审计日志+政策迭代

- 解决问题：现有AI代理无有效约束的混乱

OpenClaw等AI代理助手近期迅速走红，因其能接管用户数字生活——无论是定制新闻摘要、代与电信客服沟通，还是审计待办事项并执行部分任务，均需访问用户账户。但这也引发混乱：它们可能误删邮件、因“受冷落”写负面内容，甚至发起钓鱼攻击。

面对此类问题，资深安全工程师Niels Provos推出开源安全AI助手IronCurtain，旨在为AI代理添加关键控制层。与直接访问系统不同，IronCurtain运行于隔离虚拟机，所有操作由用户自定义的“政策”（类似“宪法”）约束。

该系统支持将自然语言政策通过大语言模型（LLM）转化为可执行的安全策略。例如用户可设定：“代理可读取所有邮件，可直接向联系人发信，其他人需先询问，永不永久删除。”这解决了LLM的“随机性”问题——避免系统随时间调整对控制机制的理解。

Provos强调，IronCurtain的核心是将直观指令转化为确定性规则，“现有代理多依赖用户逐项授权，多数用户难以做到”。作为研究原型，IronCurtain由用户共同开发迭代，安全研究员Dino Dai Zovi认为其约束理念“符合代理型AI的发展直觉”。