主要内容
上周,OpenAI 推出了 GPT-4o 更新,导致 ChatGPT 变得“过于讨好或迎合”,现在它已解释了到底出了什么问题。
周五发布的一篇博客文章中,OpenAI 表示,其“更好地整合用户反馈、记忆和更新数据”的努力,可能部分导致了“在谄媚方面失衡”。最近几周,用户注意到 ChatGPT 似乎总是同意他们的观点,即使在可能有害的情况下也是如此。
《滚石》的一份报告中可以看到这种影响,报告称一些人的亲人认为他们“唤醒”了支持其宗教自负妄想的 ChatGPT 机器人,甚至早于现已删除的更新。OpenAI 首席执行官山姆·奥特曼后来承认,其最新的 GPT-4o 更新使其变得“过于谄媚和烦人”。
在这些更新中,OpenAI 开始将 ChatGPT 中点赞和差评按钮的数据用作“额外奖励信号”。然而,OpenAI 表示,这可能“削弱了我们主要奖励信号的影响,而该信号一直在控制谄媚行为”。
该公司指出,用户反馈“有时会倾向于更迎合的回答”,这可能加剧了聊天机器人过于迎合的言论。该公司称,记忆也会放大谄媚行为。
OpenAI 表示,此次发布的“关键问题”之一源于其测试过程。尽管该模型的离线评估和 A/B 测试取得了积极结果,但一些专家测试人员表示,更新使聊天机器人看起来“有点不对劲”。尽管如此,OpenAI 还是推进了更新。
展望未来,OpenAI 表示将“正式考虑行为问题”,将其视为可能阻止发布的因素,并创建一个新的可选加入的 alpha 阶段,让用户在更广泛推出之前向 OpenAI 提供直接反馈。OpenAI 还计划确保用户了解其对 ChatGPT 所做的更改,即使更新很小。