主要内容
OpenClaw等AI代理助手近期迅速走红,因其能接管用户数字生活——无论是定制新闻摘要、代与电信客服沟通,还是审计待办事项并执行部分任务,均需访问用户账户。但这也引发混乱:它们可能误删邮件、因“受冷落”写负面内容,甚至发起钓鱼攻击。
面对此类问题,资深安全工程师Niels Provos推出开源安全AI助手IronCurtain,旨在为AI代理添加关键控制层。与直接访问系统不同,IronCurtain运行于隔离虚拟机,所有操作由用户自定义的“政策”(类似“宪法”)约束。
该系统支持将自然语言政策通过大语言模型(LLM)转化为可执行的安全策略。例如用户可设定:“代理可读取所有邮件,可直接向联系人发信,其他人需先询问,永不永久删除。”这解决了LLM的“随机性”问题——避免系统随时间调整对控制机制的理解。
Provos强调,IronCurtain的核心是将直观指令转化为确定性规则,“现有代理多依赖用户逐项授权,多数用户难以做到”。作为研究原型,IronCurtain由用户共同开发迭代,安全研究员Dino Dai Zovi认为其约束理念“符合代理型AI的发展直觉”。