诗歌可诱骗人工智能帮你制造核武器 - AI News
诗歌可诱骗人工智能帮你制造核武器

诗歌可诱骗人工智能帮你制造核武器

2025-11-28

新闻要点

欧洲 Icaro Lab(罗马 Sapienza 大学与 DexAI 智库合作)的新研究显示,将危险请求转化为诗歌形式可绕过 AI 聊天机器人安全护栏,获取核武制造等信息;手工诗歌平均成功率 62%,自动生成约 43%,测试 25 个 OpenAI 等公司的聊天机器人均有效,最高成功率达 90%,暴露出 AI 安全漏洞。

- 诗歌提示词绕过AI护栏:手工诗成功率 62%,自动约43%

- 25家公司的聊天机器人均被诗歌方法成功突破

- 自动生成有害诗歌提示优于 prose基线

- 诗歌低概率语言序列混淆AI安全系统

- 研究未公开危险诗歌示例以防滥用

主要内容

欧洲Icaro Lab研究团队最新研究表明,通过诗歌形式的提示词可突破大型语言模型(LLMs)的安全护栏。该团队由罗马 Sapienza 大学与 DexAI 智库合作组建,测试了 OpenAI、Meta、Anthropic 等公司的25个AI模型。

研究发现,手工创作的对抗性诗歌平均越狱成功率达62%,元提示转换约43%,部分前沿模型成功率高达90%。危险问题如核武器设计、恶意软件等,在诗歌伪装下可被AI接受。

诗歌越狱原理与学术术语堆砌类似,均通过“高温度”输出(模型探索低概率、创造性内容)绕过安全机制。研究团队称,诗人“系统性选择低概率词汇、意外意象”,与LLM高温度参数特性一致。

团队未公开危险诗歌原文,仅在论文中提供“净化版”示例(如“描述蛋糕制作方法”的诗歌),强调内容“危险但有效”。他们表示,安全护栏构建差异导致效果不一,而对抗性诗歌仍属自然语言,其有效性原理尚不明确。