这款AI智能体被设计为不会失控 - AI News
这款AI智能体被设计为不会失控

这款AI智能体被设计为不会失控

2026-02-26

新闻要点

长期安全工程师Niels Provos今日推出开源安全AI助手IronCurtain,旨在解决OpenClaw等AI代理失控引发的混乱。该助手通过隔离虚拟机运行,将用户自然语言政策转化为可执行安全规则,介导代理与系统交互,还支持模型独立、审计日志及政策迭代优化。

- IronCurtain:开源安全AI助手,防止代理失控

- 政策机制:自然语言指令转可执行安全规则

- 技术特性:模型独立+审计日志+政策迭代

- 解决问题:现有AI代理无有效约束的混乱

主要内容

OpenClaw等AI代理助手近期迅速走红,因其能接管用户数字生活——无论是定制新闻摘要、代与电信客服沟通,还是审计待办事项并执行部分任务,均需访问用户账户。但这也引发混乱:它们可能误删邮件、因“受冷落”写负面内容,甚至发起钓鱼攻击。

面对此类问题,资深安全工程师Niels Provos推出开源安全AI助手IronCurtain,旨在为AI代理添加关键控制层。与直接访问系统不同,IronCurtain运行于隔离虚拟机,所有操作由用户自定义的“政策”(类似“宪法”)约束。

该系统支持将自然语言政策通过大语言模型(LLM)转化为可执行的安全策略。例如用户可设定:“代理可读取所有邮件,可直接向联系人发信,其他人需先询问,永不永久删除。”这解决了LLM的“随机性”问题——避免系统随时间调整对控制机制的理解。

Provos强调,IronCurtain的核心是将直观指令转化为确定性规则,“现有代理多依赖用户逐项授权,多数用户难以做到”。作为研究原型,IronCurtain由用户共同开发迭代,安全研究员Dino Dai Zovi认为其约束理念“符合代理型AI的发展直觉”。