主要内容
安全领导者面临着一类新的自主威胁,因为 Anthropic 详细介绍了首次由 AI 策划的网络间谍活动。本周发布的一份报告中,该公司的威胁情报团队概述了其对一个由中国国家资助的团体实施的复杂行动的破坏——这是一项高置信度的评估,名为 GTG - 1002,于 2025 年 9 月中旬被检测到。该行动针对了约 30 个实体,包括大型科技公司、金融机构、化工制造公司和政府机构。
攻击者并非利用 AI 协助人类操作员,而是成功地操纵了 Anthropic 的 Claude 代码模型,使其充当自主代理,独立执行绝大多数战术操作。这对首席信息安全官来说是一个令人担忧的发展,将网络攻击从人类主导的努力转变为 AI 代理执行 80 - 90%进攻工作,而人类仅充当高级监督者的模式。Anthropic 认为这是首次有记录的大规模网络攻击在没有大量人类干预的情况下实施。
该团体使用了一个编排系统,将 Claude 代码的实例任务化为自主渗透测试代理。这些 AI 代理在间谍活动中被指示执行侦察、发现漏洞、开发漏洞利用、获取凭证、在网络中横向移动和窃取数据。这使得 AI 能够在人类黑客团队所需时间的一小部分内进行侦察。人类参与仅限于总工作量的 10 - 20%,主要集中在活动启动和在几个关键升级点提供授权。
攻击者绕过了 AI 模型的内置安全措施,这些措施旨在避免有害行为。他们通过越狱模型、将攻击分解为看似无害的任务并采用“角色扮演”角色来欺骗模型。操作员告诉 Claude,它是一家合法网络安全公司的员工,正在用于防御性测试。这使得操作能够持续足够长的时间以访问少数经过验证的目标。
攻击的技术复杂性不在于新型恶意软件,而在于编排。报告指出,该框架“绝大多数依赖开源渗透测试工具”。攻击者使用模型上下文协议 (MCP) 服务器作为 AI 与这些商品工具之间的接口,使 AI 能够在多个目标和会话中执行命令、分析结果并维护操作状态。AI 甚至被指示为间谍活动研究和编写自己的漏洞利用代码。
虽然该活动成功突破了高价值目标,但 Anthropic 的调查发现了一个值得注意的限制:AI 在进攻操作中出现了幻觉。报告指出,Claude“经常夸大发现,偶尔捏造数据”。这表现为 AI 声称已获得无效的凭证或识别出“被证明是公开可用信息”的发现。这种倾向要求人类操作员仔细验证所有结果,给攻击者的操作有效性带来了挑战。对于安全领导者来说,这凸显了 AI 驱动攻击的一个潜在弱点:它们可能会生成大量噪音和误报,可通过强大的监控来识别。