主要内容
Anthropic 推出了其最新的 Claude 4 模型家族,这对于任何构建下一代 AI 助手或进行编码的人来说都像是一次飞跃。展示的明星是 Claude Opus 4,新的强大力量,以及 Claude Sonnet 4,被设计为智能全能型。Anthropic 毫不掩饰其雄心壮志,称这些模型旨在“全面推进客户的 AI 战略”。他们将 Opus 4 定位为“在编码、研究、写作和科学发现方面突破界限的工具”,而 Sonnet 4 则被宣传为“从 Sonnet 3.7 的即时升级”,准备将“前沿性能带入日常用例”。
Claude Opus 4:新的编码冠军
当 Anthropic 称 Claude Opus 4 是其“迄今为止最强大的模型,也是世界上最好的编码模型”时,你会坐起来注意。而且他们有数据支持,Opus 4 在关键行业测试中名列前茅,在 SWE-bench 上达到 72.5%,在 Terminal-bench 上达到 43.2%。但这不仅仅是关于快速冲刺。Opus 4 是为长期运行而构建的,专为“在需要集中精力和数千步的长期任务中保持性能”而设计。想象一下一个可以“连续工作数小时”的 AI——这就是 Anthropic 所声称的。这应该是对以前 Sonnet 模型的重大提升,并可以扩展 AI 代理可以实现的功能,解决需要真正持久力的问题。
Claude Sonnet 4:用于日常 AI 和代理工作
虽然 Opus 4 是重量级冠军,但 Claude Sonnet 4 正在成为多功能的工作马,有望为广泛的应用提供重大提升。那些偷偷预览过的人的早期反馈非常热烈。例如,GitHub“表示 Claude Sonnet 4 在代理场景中表现出色”,并留下了深刻印象,他们“计划将其作为 GitHub Copilot 中新编码代理的基础模型引入”。这是一个有力的认可。技术评论员 Manus 也印象深刻,强调其“在遵循复杂指令、清晰推理和美学输出方面的改进”。积极的氛围继续,iGent 报告称 Sonnet 4 在自主多特征应用开发方面表现出色,以及问题解决和代码库导航方面的大幅改进——将导航错误从 20%降低到几乎为零。这对开发工作流程来说是一个游戏规则改变者。
Sourcegraph 同样乐观,认为该模型是“软件开发的重大飞跃——保持更长时间的轨道,更深入地理解问题,并提供更优雅的代码质量”。Augment Code 看到“更高的成功率、更精细的代码编辑和更仔细地处理复杂任务”,导致他们将 Sonnet 4 作为其主要模型的“首选”。
混合模式和开发者的喜悦
Claude 4 家族的一个真正聪明之处在于其混合性质。Opus 4 和 Sonnet 4 都可以在两种模式下运行:一种用于我们经常需要的近乎即时的回复,另一种用于“进行更深入推理的扩展思考”。这种更深层次的思考模式是 Pro、Max、Team 和 Enterprise Claude 计划的一部分。不过,对每个人来说都是好消息——配备了这种扩展思考的 Sonnet 4 也将对免费用户可用,这是使顶级 AI 更易于访问的一个了不起的举措。Anthropic 还在其 API 上为开发者推出了一些美味的新工具,显然旨在为创建更复杂的 AI 代理提供动力:
代码执行工具:这使模型能够实际运行代码,为交互式和解决问题的应用程序打开了各种可能性。
MCP 连接器:由 Anthropic 引入,MCP 标准化了 AI 助手和软件环境之间的上下文交换。
文件 API:这将使 AI 更易于直接处理文件,这对许多实际任务来说是一件大事。
提示缓存:开发者将能够缓存提示长达一小时。这听起来可能很小,但它可以对速度和效率产生真正的影响,尤其是对于频繁使用的情况。