新模型在推理和规划方面表现出色，且有相关技能证明

2025-05-22

新闻要点

周四 Anthropic 在旧金山开发者大会推出两款新模型。Claude 4 Opus 供付费用户，Claude Sonnet 4 供免费和付费用户。新模型在推理、规划等方面有优势，Claude 4 Opus 玩宝可梦能力提升，这一研究为理解 AI 决策提供新途径。

- Anthropic 推两款新模型 Claude 4 Opus 和 Claude Sonnet 4

- Claude 4 Opus 玩宝可梦时长从 45 分钟提升至 24 小时

- 宝可梦研究助理解 AI 决策推动 AI 智能体发展

主要内容

Anthropic 在周四于旧金山举行的首届开发者大会上宣布了两款新模型，克劳德 4 大键琴（Claude 4 Opus）和克劳德十四行诗（Claude Sonnet 4）。克劳德 4 大键琴将立即对付费克劳德订阅者开放，而克劳德十四行诗将对免费和付费用户开放。
该公司称，这些新模型跳过了从 3.7 直接到 4 的命名惯例，具有许多优势，包括能够进行推理、规划和长时间记住对话的上下文。克劳德 4 大键琴在玩《宝可梦》方面甚至比其前身更好。Anthropic 的首席产品官迈克·克里格（Mike Krieger）在接受《连线》（WIRED）采访时表示：“它能够在《宝可梦》上持续工作 24 小时。”此前，该模型最多只能玩 45 分钟，一名公司发言人补充道。
几个月前，Anthropic 推出了一个名为“克劳德玩《宝可梦》”的 Twitch 直播，展示了克劳德 3.7 十四行诗在《宝可梦红》直播中的能力。该演示旨在展示克劳德如何能够逐步分析游戏并做出决策，且无需太多指导。
《宝可梦》研究的负责人是大卫·赫希（David Hershey），他是 Anthropic 的技术人员。在接受《连线》采访时，赫希表示，他选择《宝可梦红》是因为它是“一个简单的游戏场”，意味着游戏是回合制的，不需要实时反应，而这是 Anthropic 当前模型所难以应对的。1997 年圣诞节得到原始 Game Boy 后，这也是他玩的第一款视频游戏。“它在我心中有着特殊的地位，”赫希说。
赫希这项研究的总体目标是研究克劳德如何被用作一个代理，独立地为用户完成复杂任务。虽然不清楚克劳德在其训练数据中对《宝可梦》有哪些先验知识，但其系统提示设计得很简单：你是克劳德，你在玩《宝可梦》，这是你拥有的工具，你可以按下屏幕上的按钮。
赫希表示：“随着时间的推移，我一直在删除我能删除的所有《宝可梦》特定内容，因为我认为看到模型自己能弄清楚多少东西真的很有趣。”他还希望构建一个克劳德从未见过的游戏，以真正测试其极限。
当克劳德 3.7 十四行诗玩游戏时，遇到了一些挑战：它在一个城市被困了“几十个小时”，难以识别非玩家角色，这极大地阻碍了它在游戏中的进展。而在克劳德 4 大键琴中，赫希注意到当它在复杂的《宝可梦》任务中导航时，其长期记忆和规划能力有所提高。在意识到需要某种力量才能前进后，该 AI 花了两天时间提升技能，然后继续玩。赫希认为，这种无需立即反馈的多步推理显示了一种新的连贯性水平，意味着该模型有更好的保持在正轨上的能力。
“这是我了解模型的最喜欢的方式之一。就像，这是我了解它的优势和劣势的方式，”赫希说。“这是我理解我们即将推出的这个新模型以及如何与它合作的方式。”Anthropic 的《宝可梦》研究是一种解决现有问题的新颖方法——当接近复杂任务时，我们如何理解 AI 做出的决策，并将其推向正确的方向？这个问题的答案对于推进该行业备受炒作的 AI 代理（能够相对独立地处理复杂任务的 AI）至关重要。在《宝可梦》中，重要的是模型不会失去上下文或“忘记”手头的任务。这也适用于被要求自动化工作流程的 AI 代理——即使是需要数百小时的工作流程。“当一项任务从五分钟任务变为 30 分钟任务时，你可以看到模型保持连贯性的能力，记住成功完成[任务]所需的所有事情的能力随着时间的推移而变差，”

新模型在推理和规划方面表现出色，且有相关技能证明

新闻要点

主要内容

关于我们