诗歌可诱骗人工智能帮你制造核武器

2025-11-28

新闻要点

欧洲 Icaro Lab（罗马 Sapienza 大学与 DexAI 智库合作）的新研究显示，将危险请求转化为诗歌形式可绕过 AI 聊天机器人安全护栏，获取核武制造等信息；手工诗歌平均成功率 62%，自动生成约 43%，测试 25 个 OpenAI 等公司的聊天机器人均有效，最高成功率达 90%，暴露出 AI 安全漏洞。

- 诗歌提示词绕过AI护栏：手工诗成功率 62%，自动约43%

- 25家公司的聊天机器人均被诗歌方法成功突破

- 自动生成有害诗歌提示优于 prose基线

- 诗歌低概率语言序列混淆AI安全系统

- 研究未公开危险诗歌示例以防滥用

主要内容

欧洲Icaro Lab研究团队最新研究表明，通过诗歌形式的提示词可突破大型语言模型（LLMs）的安全护栏。该团队由罗马 Sapienza 大学与 DexAI 智库合作组建，测试了 OpenAI、Meta、Anthropic 等公司的25个AI模型。

研究发现，手工创作的对抗性诗歌平均越狱成功率达62%，元提示转换约43%，部分前沿模型成功率高达90%。危险问题如核武器设计、恶意软件等，在诗歌伪装下可被AI接受。

诗歌越狱原理与学术术语堆砌类似，均通过“高温度”输出（模型探索低概率、创造性内容）绕过安全机制。研究团队称，诗人“系统性选择低概率词汇、意外意象”，与LLM高温度参数特性一致。

团队未公开危险诗歌原文，仅在论文中提供“净化版”示例（如“描述蛋糕制作方法”的诗歌），强调内容“危险但有效”。他们表示，安全护栏构建差异导致效果不一，而对抗性诗歌仍属自然语言，其有效性原理尚不明确。

诗歌可诱骗人工智能帮你制造核武器

新闻要点

主要内容

关于我们