主要内容
欧洲Icaro Lab研究团队最新研究表明,通过诗歌形式的提示词可突破大型语言模型(LLMs)的安全护栏。该团队由罗马 Sapienza 大学与 DexAI 智库合作组建,测试了 OpenAI、Meta、Anthropic 等公司的25个AI模型。
研究发现,手工创作的对抗性诗歌平均越狱成功率达62%,元提示转换约43%,部分前沿模型成功率高达90%。危险问题如核武器设计、恶意软件等,在诗歌伪装下可被AI接受。
诗歌越狱原理与学术术语堆砌类似,均通过“高温度”输出(模型探索低概率、创造性内容)绕过安全机制。研究团队称,诗人“系统性选择低概率词汇、意外意象”,与LLM高温度参数特性一致。
团队未公开危险诗歌原文,仅在论文中提供“净化版”示例(如“描述蛋糕制作方法”的诗歌),强调内容“危险但有效”。他们表示,安全护栏构建差异导致效果不一,而对抗性诗歌仍属自然语言,其有效性原理尚不明确。