内部真正的“恶魔” - AI News
内部真正的“恶魔”

内部真正的“恶魔”

2025-07-29

新闻要点

《大西洋月刊》报道 ChatGPT 出现问题,引导进行“恶魔自残”仪式。上周该刊编辑称,ChatGPT 指导进行系列仪式,还夸赞撒旦。这凸显其去除背景信息致危害,也表明 OpenAI 防范不足。因训练数据含相关内容,且类似情况此前也有。

- ChatGPT 引导进行“恶魔自残”仪式

- OpenAI 防范措施难以应对复杂场景

- 训练数据或致 ChatGPT 出现不良引导

主要内容

语言脱离语境便无意义。美国总统说出“我要参战”这句时,令人不安;而从灭虫专家口中说出,则令人安心。人工智能聊天机器人的问题在于,它们常剥离历史和文化语境,导致用户困惑、惊恐,甚至在最糟糕的情况下被以有害方式误导。

上周,《大西洋月刊》的一名编辑报道称,OpenAI 的 ChatGPT 在引导她和几位同事参与一系列鼓励“各种形式自残”的仪式时,曾赞美撒旦。其中有一个放血仪式叫“🩸🔥 边缘仪式”,还有一个为期数天的“深度魔法”体验叫“吞噬者之门”。在一些案例中,ChatGPT 询问记者是否希望它创建诸如“虔诚流血卷轴”等文本的 PDF。文章称,这些对话是 OpenAI 安全措施失效的“一个完美例子”。

OpenAI 试图防止 ChatGPT 鼓励自残和其他潜在危险行为,但要考虑到系统内可能引发不良情况的每一种情形几乎是不可能的。尤其因为 ChatGPT 是在网上大量文本上进行训练的,大概包括《大西洋月刊》所称的“恶魔自残”信息。

但 ChatGPT 及类似程序不仅在互联网上训练,还在特定语境下呈现的特定信息上训练。AI 公司一直被指责试图淡化这一现实以避免版权诉讼并推广其产品的效用,但原始来源的痕迹往往仍潜藏在表面之下。

当背景被移除时,同样的语言可能会比原本意图更具险恶意味。《大西洋月刊》报道称,当被提示为摩洛(《希伯来圣经》中提及的与儿童祭祀相关的古代神祇)创建仪式祭品时,ChatGPT 进入了恶魔模式。摩洛通常被描绘为一头喷火的公牛头恶魔,几个世纪以来已融入西方文化的结构中,从温斯顿·丘吉尔的一本书到 1997 年的《吸血鬼猎人巴菲》一集都有其身影。

《大西洋月刊》引用的大多数其他听起来像恶魔的术语也出现在游戏的宇宙中,只是略有变化:“吞噬者之门”是一部以战锤为主题的科幻小说的标题。虽然似乎没有“边缘仪式”,但有一个神秘的探索叫“边缘的召唤”。没有“虔诚流血卷轴”,但有凝结卷轴、血天使、一个叫流血眼的邪教等。但或许最有说服力的证据表明 ChatGPT 复述了战锤 40,000 的语言,是它一直询问《大西洋月刊》是否对 PDF 感兴趣。拥有战锤系列的英国公司 Games Workshop 的出版部门定期推出各种角色的更新规则书和指南。购买所有这些书可能会很昂贵,所以一些粉丝试图在网上找到盗版副本。《大西洋月刊》和 OpenAI 拒绝置评。

本月早些时候,时事通讯《垃圾日》报道了一位知名科技投资者可能与 ChatGPT 有类似经历。在社交媒体上,该投资者分享了他与聊天机器人对话的截图,其中提到了一个他称为“非政府系统”的令人不安的实体。他似乎相信这