有计划防止人工智能制造核武器,能奏效吗? - AI News
有计划防止人工智能制造核武器,能奏效吗?

有计划防止人工智能制造核武器,能奏效吗?

2025-10-20

新闻要点

8月底,AI公司Anthropic称其聊天机器人Claude不会助建核武器,该公司与美能源部等合作,利用亚马逊云服务,经红队测试等开发核分类器防敏感信息泄露,不过对潜在风险及分类器效果存疑。

- Anthropic 与美政府合作防 Claude 泄露核机密

- 利用亚马逊云服务开展核风险测试

- 合作开发核分类器防有害对话

- 对潜在风险及分类器效果存疑

主要内容

8 月末,AI 公司 Anthropic 宣布其聊天机器人 Claude 不会帮助任何人制造核武器。据 Anthropic 称,它已与能源部(DOE)和国家核安全管理局(NNSA)合作,以确保 Claude 不会泄露核秘密。核武器制造既是一门精确的科学,也是一个已解决的问题。关于美国最先进核武器的许多信息是绝密的,但最初的核科学已有 80 年历史。朝鲜证明,一个有兴趣获取炸弹的专注国家可以做到,且不需要聊天机器人的帮助。

美国政府究竟如何与一家 AI 公司合作以确保聊天机器人不泄露敏感核秘密?首先,它使用了亚马逊。亚马逊网络服务(AWS)为政府客户提供绝密云服务,他们可以在其中存储敏感和机密信息。DOE 在与 Anthropic 合作开始时就已经有了几台这样的服务器。

Anthropic 负责国家安全政策与合作伙伴关系的 Marina Favaro 告诉《连线》杂志:“我们在绝密环境中部署了当时的前沿版本的 Claude,以便 NNSA 能够系统地测试 AI 模型是否会创造或加剧核风险。从那时起,NNSA 一直在其安全云环境中对连续的 Claude 模型进行红队测试并提供反馈。”

NNSA 的红队测试过程(即测试弱点)帮助 Anthropic 和美国核科学家为聊天机器人辅助的核计划开发了一个积极的解决方案。他们共同“共同开发了一种核分类器,你可以将其视为 AI 对话的复杂过滤器”,Favaro 说。“我们使用 NNSA 开发的核风险指标、特定主题和技术细节列表来构建它,这有助于我们确定对话何时可能转向有害领域。该列表本身是受控制的,但不是机密的,这很关键,因为这意味着我们的技术人员和其他公司可以实施它。”

Favaro 说,经过数月的调整和测试,分类器才开始工作。“它会捕捉到令人担忧的对话,而不会标记关于核能或医用同位素的合法讨论,”她说。

NNSA 管理员兼反恐和防扩散副国务卿 Wendin Smith 告诉《连线》杂志,“AI 技术的出现深刻改变了国家安全领域。NNSA 在辐射和核安全方面的权威专业知识使我们处于一个独特的位置,可以帮助部署在这些领域防范潜在风险的工具,并使我们能够更高效、更有效地执行我们的任务。”

NNSA 和 Anthropic 都对“这些领域的潜在风险”含糊其辞,目前尚不清楚 Claude 或其他任何聊天机器人在制造核武器方面会有多大帮助。“我不会忽视这些担忧,我认为它们值得认真对待,”美国科学家联合会的 AI 专家 Oliver Stephenson 告诉《连线》杂志。“我认为在大多数情况下,当前迭代的模型并不令人非常担忧,但我确实认为我们不知道五年后它们会在哪里……对此事实保持谨慎是值得的。”Stephenson 指出,很多细节都被分类壁垒所掩盖,因此很难知道 Anthropic 的分类器产生了什么影响。