新模型在推理和规划方面表现出色,且有相关技能证明 - AI News
新模型在推理和规划方面表现出色,且有相关技能证明

新模型在推理和规划方面表现出色,且有相关技能证明

2025-05-22

新闻要点

周四 Anthropic 在旧金山开发者大会推出两款新模型 。Claude 4 Opus 供付费用户,Claude Sonnet 4 供免费和付费用户 。新模型在推理、规划等方面有优势,Claude 4 Opus 玩宝可梦能力提升,这一研究为理解 AI 决策提供新途径。

- Anthropic 推两款新模型 Claude 4 Opus 和 Claude Sonnet 4

- Claude 4 Opus 玩宝可梦时长从 45 分钟提升至 24 小时

- 宝可梦研究助理解 AI 决策 推动 AI 智能体发展

主要内容

Anthropic 在周四于旧金山举行的首届开发者大会上宣布了两款新模型,克劳德 4 大键琴(Claude 4 Opus)和克劳德十四行诗(Claude Sonnet 4)。克劳德 4 大键琴将立即对付费克劳德订阅者开放,而克劳德十四行诗将对免费和付费用户开放。
该公司称,这些新模型跳过了从 3.7 直接到 4 的命名惯例,具有许多优势,包括能够进行推理、规划和长时间记住对话的上下文。克劳德 4 大键琴在玩《宝可梦》方面甚至比其前身更好。Anthropic 的首席产品官迈克·克里格(Mike Krieger)在接受《连线》(WIRED)采访时表示:“它能够在《宝可梦》上持续工作 24 小时。”此前,该模型最多只能玩 45 分钟,一名公司发言人补充道。
几个月前,Anthropic 推出了一个名为“克劳德玩《宝可梦》”的 Twitch 直播,展示了克劳德 3.7 十四行诗在《宝可梦红》直播中的能力。该演示旨在展示克劳德如何能够逐步分析游戏并做出决策,且无需太多指导。
《宝可梦》研究的负责人是大卫·赫希(David Hershey),他是 Anthropic 的技术人员。在接受《连线》采访时,赫希表示,他选择《宝可梦红》是因为它是“一个简单的游戏场”,意味着游戏是回合制的,不需要实时反应,而这是 Anthropic 当前模型所难以应对的。1997 年圣诞节得到原始 Game Boy 后,这也是他玩的第一款视频游戏。“它在我心中有着特殊的地位,”赫希说。
赫希这项研究的总体目标是研究克劳德如何被用作一个代理,独立地为用户完成复杂任务。虽然不清楚克劳德在其训练数据中对《宝可梦》有哪些先验知识,但其系统提示设计得很简单:你是克劳德,你在玩《宝可梦》,这是你拥有的工具,你可以按下屏幕上的按钮。
赫希表示:“随着时间的推移,我一直在删除我能删除的所有《宝可梦》特定内容,因为我认为看到模型自己能弄清楚多少东西真的很有趣。”他还希望构建一个克劳德从未见过的游戏,以真正测试其极限。
当克劳德 3.7 十四行诗玩游戏时,遇到了一些挑战:它在一个城市被困了“几十个小时”,难以识别非玩家角色,这极大地阻碍了它在游戏中的进展。而在克劳德 4 大键琴中,赫希注意到当它在复杂的《宝可梦》任务中导航时,其长期记忆和规划能力有所提高。在意识到需要某种力量才能前进后,该 AI 花了两天时间提升技能,然后继续玩。赫希认为,这种无需立即反馈的多步推理显示了一种新的连贯性水平,意味着该模型有更好的保持在正轨上的能力。
“这是我了解模型的最喜欢的方式之一。就像,这是我了解它的优势和劣势的方式,”赫希说。“这是我理解我们即将推出的这个新模型以及如何与它合作的方式。”Anthropic 的《宝可梦》研究是一种解决现有问题的新颖方法——当接近复杂任务时,我们如何理解 AI 做出的决策,并将其推向正确的方向?这个问题的答案对于推进该行业备受炒作的 AI 代理(能够相对独立地处理复杂任务的 AI)至关重要。在《宝可梦》中,重要的是模型不会失去上下文或“忘记”手头的任务。这也适用于被要求自动化工作流程的 AI 代理——即使是需要数百小时的工作流程。“当一项任务从五分钟任务变为 30 分钟任务时,你可以看到模型保持连贯性的能力,记住成功完成[任务]所需的所有事情的能力随着时间的推移而变差,”