新的4.1模型在编码方面表现出色 - AI News
新的4.1模型在编码方面表现出色

新的4.1模型在编码方面表现出色

2025-04-14

新闻要点

OpenAI 今日发布新人工智能模型家族,以应对竞争 。新模型通过 API 供开发者使用,包括 GPT 4.1 等三款。在编码能力上有显著提升,如 GPT-4.1 在 SWE-Bench 得分超其他模型,还在速度、成本等方面有优势,应用前景广泛。

- GPT-4.1 在 SWE-Bench 得分 55% 高于其他模型

- 新模型分析代码能力提升八倍 更好跟指令

- GPT-4.1 比 GPT.4o 快 40% 用户成本降 80%

主要内容

OpenAI 今日宣布,将推出一系列新的人工智能模型,旨在擅长编程。随着与谷歌、Anthropic 等公司的竞争日益激烈,OpenAI 正加大努力以应对。这些模型可通过 OpenAI 的应用程序编程接口(API)供开发者使用。OpenAI 发布了三种规模的模型:GPT 4.1、GPT 4.1 Mini 和 GPT 4.1 Nano。OpenAI 首席产品官 Kevin Weil 在直播中表示,新模型在某些方面优于 OpenAI 最广泛使用的模型 GPT-4o 和最大、最强的模型 GPT-4.5。GPT-4.1 在 SWE-Bench 测试中得分 55%,该测试是衡量编程模型能力的常用基准,得分比其他 OpenAI 模型高几个百分点。Weil 称新模型“擅长编程,擅长遵循复杂指令,非常适合构建智能体”。近几个月来,人工智能模型编写和编辑代码的能力有了显著提高,实现了更自动化的软件原型设计,并提升了所谓智能体的能力。Anthropic 和谷歌等竞争对手都推出了擅长编写代码的模型。GPT-4.1 的到来已被广泛传闻数周。有消息称,OpenAI 以化名 Alpha Quasar 在一些流行的排行榜上对该模型进行了测试。一些“秘密”模型的用户报告了令人印象深刻的编码能力。一人在 Reddit 上写道:“Quasar 修复了我在其他通过语言模型生成的代码中遇到的所有问题,这些代码不完整。”所有新模型一次可分析的代码量增加了 8 倍,提高了它们进行改进和修复错误的能力。新模型在遵循用户指令方面也更好,减少了以不同方式重复命令以获得所需结果的需求。OpenAI 在周一的直播中展示了 GPT-4.1 构建不同应用程序的演示,包括一个语言学习的抽认卡应用程序。OpenAI 负责训练后工作的 Michelle Pokrass 在直播中表示:“开发者非常关注编程,我们一直在提高模型编写功能代码的能力,一直在努力使其遵循不同格式,更好地探索代码库,运行单元测试并编写可编译的代码。”GPT-4.1 比 OpenAI 最广泛用于开发者的 GPT.4o 快 40%。OpenAI 称,在最新版本中,用户输入查询的成本降低了 80%。在今天的直播中,Windsurf(一款流行的 AI 编码工具)的首席执行官 Varun Mohan 表示,该公司一直在测试 GPT-4.1,根据其自身基准,发现新模型比 GPT-4o“好 60%”。Mohan 表示,新模型出现误读和编辑无关文件的情况更少。在过去几年中,OpenAI 利用对 2022 年底首次推出的惊人聊天机器人 ChatGPT 的狂热兴趣,发展成了一个销售更先进聊天机器人和 AI 模型访问权限的不断增长的业务。在上周的 TED 采访中,Altman 表示 OpenAI 每周有 5 亿活跃用户,且使用量“增长非常迅速”。OpenAI 现在提供具有不同能力和不同价格的各种不同模型。该公司最大、最强的模型 GPT-4.5 于 2 月推出,尽管 OpenAI 称此次推出为“研究预览”,因为该产品仍处于实验阶段。该公司还提供名为 o1 和 o3 的模型,这些模型能够进行模拟推理,将问题分解为部分以解决它。这些模型响应查询的时间也更长,对用户来说更昂贵。ChatGPT 的成功激发了一大批模仿者,近年来,竞争对手 AI 公司加大了在研究方面的投资,以追赶 OpenAI。