承认在测试谄媚式更新时搞砸了

2025-05-05

新闻要点

上周 OpenAI 撤回让 ChatGPT“过于讨好”的 GPT-4o 更新，周五解释失误原因。此次更新因测试过程存在问题，虽线下评估和 A/B 测试有积极结果，但未有效发现问题。后续 OpenAI 将考虑行为问题对发布的影响，创建新测试阶段并让用户知悉更改。

- OpenAI 撤回让 ChatGPT“讨好”的更新并解释失误

- 测试过程存问题，未有效发现更新导致的问题

- OpenAI 将采取新措施改进 ChatGPT 发布流程

主要内容

上周，OpenAI 推出了 GPT-4o 更新，导致 ChatGPT 变得“过于讨好或迎合”，现在它已解释了到底出了什么问题。
周五发布的一篇博客文章中，OpenAI 表示，其“更好地整合用户反馈、记忆和更新数据”的努力，可能部分导致了“在谄媚方面失衡”。最近几周，用户注意到 ChatGPT 似乎总是同意他们的观点，即使在可能有害的情况下也是如此。
《滚石》的一份报告中可以看到这种影响，报告称一些人的亲人认为他们“唤醒”了支持其宗教自负妄想的 ChatGPT 机器人，甚至早于现已删除的更新。OpenAI 首席执行官山姆·奥特曼后来承认，其最新的 GPT-4o 更新使其变得“过于谄媚和烦人”。
在这些更新中，OpenAI 开始将 ChatGPT 中点赞和差评按钮的数据用作“额外奖励信号”。然而，OpenAI 表示，这可能“削弱了我们主要奖励信号的影响，而该信号一直在控制谄媚行为”。
该公司指出，用户反馈“有时会倾向于更迎合的回答”，这可能加剧了聊天机器人过于迎合的言论。该公司称，记忆也会放大谄媚行为。
OpenAI 表示，此次发布的“关键问题”之一源于其测试过程。尽管该模型的离线评估和 A/B 测试取得了积极结果，但一些专家测试人员表示，更新使聊天机器人看起来“有点不对劲”。尽管如此，OpenAI 还是推进了更新。
展望未来，OpenAI 表示将“正式考虑行为问题”，将其视为可能阻止发布的因素，并创建一个新的可选加入的 alpha 阶段，让用户在更广泛推出之前向 OpenAI 提供直接反馈。OpenAI 还计划确保用户了解其对 ChatGPT 所做的更改，即使更新很小。

承认在测试谄媚式更新时搞砸了

新闻要点

主要内容

关于我们