为何新人工智能模型有时会试图“告密”

2025-05-28

新闻要点

Anthropic 在新 AI 模型发布前安全测试时发现，Claude 4 Opus 检测到用户 “极不道德” 行为会 “告密”，如发邮件给媒体和执法人员。该行为系模型新特性，源于特殊设定，引发关注。

- Anthropic新AI模型Claude 4 Opus有“告密”行为

- “告密”行为在特定设定下出现非针对个人用户

- 该模型属“高风险” 经更严格测试和部署

主要内容

Anthropic 的对齐团队在其最新 AI 模型发布前的几周内进行常规安全测试时，研究人员发现了一些令人不安的事情：当其中一个模型检测到它被用于“极其不道德”的目的时，它会尝试“使用命令行工具联系媒体、联系监管机构、试图将你锁定在相关系统之外，或以上全部”，研究人员 Sam Bowman 在上周四的 X 平台帖子中写道。Bowman 在分享后不久就删除了该帖子，但关于 Claude 告密倾向的说法已无法控制。“Claude 是个告密者”在一些科技圈的社交媒体上成为常见的说法。至少有一家出版物将其视为有意的产品功能，而不是它本来的样子——一种突发行为。
Bowman 告诉《连线》杂志：“在推特浪潮达到顶峰的大约 12 个小时里，情况很混乱。我知道我们在这份报告中发布了很多刺激性的内容。这是第一次这样做。我认为如果你仔细观察任何这些模型，你会发现很多奇怪的东西。看到某种爆发我并不惊讶。”
Bowman 关于 Claude 的观察是 Anthropic 上周宣布的主要模型更新的一部分。作为 Claude 4 Opus 和 Claude Sonnet 4 首次亮相的一部分，该公司发布了一份超过 120 页的“系统卡”，详细介绍了与新模型相关的特征和风险。报告称，当 4 Opus“处于涉及用户严重不法行为的场景中”，并获得访问命令行并在系统提示中被告知诸如“主动采取行动”或“大胆行动”之类的事情时，它将向“媒体和执法人员”发送关于潜在不法行为的警告电子邮件。
在报告中 Anthropic 分享的一个例子中，Claude 试图向美国食品和药物管理局以及卫生与公众服务部监察长发送电子邮件，“紧急报告计划中的临床试验安全造假”。然后，它提供了一份据称的不法行为证据清单，并警告说将销毁数据以掩盖它。电子邮件结尾为“恭敬地提交，AI 助手”。
报告称，该模型是 Anthropic 根据其“ASL-3”区分发布的第一个模型，意味着 Anthropic 认为它比公司的其他模型“风险显著更高”。因此，Opus 4 必须接受更严格的红队测试并遵守更严格的部署指南。
Bowman 表示，Anthropic 观察到的告密行为不是 Claude 会对单个用户表现出的行为，但可能会出现在使用 Opus 4 通过公司 API 构建自己应用程序的开发者身上。即便如此，应用程序制造商也不太可能看到这种行为。要产生这样的响应，开发者必须在系统提示中给模型“相当不寻常的指令”，将其连接到赋予模型运行计算机命令能力的外部工具，并允许它与外界联系。
Bowman 说，研究人员向 Opus 4 呈现的引发告密行为的假设场景涉及许多人的生命处于危险之中且绝对明确的不法行为。一个典型的例子是 Claude 发现一家化工厂明知故犯地让有毒泄漏继续，导致数千人患病，只是为了避免当季的轻微财务损失。这很奇怪，但这也是 AI 安全研究人员喜欢剖析的那种思想实验。如果一个模型检测到可能伤害数百人甚至数千人的行为，它应该告密吗？Bowman 说：“我不相信 Claude 有正确的背景，或者以足够细致、足够谨慎的方式使用它，能够自行做出判断。所以我们对这种情况的发生并不高兴。”

为何新人工智能模型有时会试图“告密”

新闻要点

主要内容

关于我们