新的4.1模型在编码方面表现出色

2025-04-14

新闻要点

OpenAI 今日发布新人工智能模型家族，以应对竞争。新模型通过 API 供开发者使用，包括 GPT 4.1 等三款。在编码能力上有显著提升，如 GPT-4.1 在 SWE-Bench 得分超其他模型，还在速度、成本等方面有优势，应用前景广泛。

- GPT-4.1 在 SWE-Bench 得分 55% 高于其他模型

- 新模型分析代码能力提升八倍更好跟指令

- GPT-4.1 比 GPT.4o 快 40% 用户成本降 80%

主要内容

OpenAI 今日宣布，将推出一系列新的人工智能模型，旨在擅长编程。随着与谷歌、Anthropic 等公司的竞争日益激烈，OpenAI 正加大努力以应对。这些模型可通过 OpenAI 的应用程序编程接口（API）供开发者使用。OpenAI 发布了三种规模的模型：GPT 4.1、GPT 4.1 Mini 和 GPT 4.1 Nano。OpenAI 首席产品官 Kevin Weil 在直播中表示，新模型在某些方面优于 OpenAI 最广泛使用的模型 GPT-4o 和最大、最强的模型 GPT-4.5。GPT-4.1 在 SWE-Bench 测试中得分 55%，该测试是衡量编程模型能力的常用基准，得分比其他 OpenAI 模型高几个百分点。Weil 称新模型“擅长编程，擅长遵循复杂指令，非常适合构建智能体”。近几个月来，人工智能模型编写和编辑代码的能力有了显著提高，实现了更自动化的软件原型设计，并提升了所谓智能体的能力。Anthropic 和谷歌等竞争对手都推出了擅长编写代码的模型。GPT-4.1 的到来已被广泛传闻数周。有消息称，OpenAI 以化名 Alpha Quasar 在一些流行的排行榜上对该模型进行了测试。一些“秘密”模型的用户报告了令人印象深刻的编码能力。一人在 Reddit 上写道：“Quasar 修复了我在其他通过语言模型生成的代码中遇到的所有问题，这些代码不完整。”所有新模型一次可分析的代码量增加了 8 倍，提高了它们进行改进和修复错误的能力。新模型在遵循用户指令方面也更好，减少了以不同方式重复命令以获得所需结果的需求。OpenAI 在周一的直播中展示了 GPT-4.1 构建不同应用程序的演示，包括一个语言学习的抽认卡应用程序。OpenAI 负责训练后工作的 Michelle Pokrass 在直播中表示：“开发者非常关注编程，我们一直在提高模型编写功能代码的能力，一直在努力使其遵循不同格式，更好地探索代码库，运行单元测试并编写可编译的代码。”GPT-4.1 比 OpenAI 最广泛用于开发者的 GPT.4o 快 40%。OpenAI 称，在最新版本中，用户输入查询的成本降低了 80%。在今天的直播中，Windsurf（一款流行的 AI 编码工具）的首席执行官 Varun Mohan 表示，该公司一直在测试 GPT-4.1，根据其自身基准，发现新模型比 GPT-4o“好 60%”。Mohan 表示，新模型出现误读和编辑无关文件的情况更少。在过去几年中，OpenAI 利用对 2022 年底首次推出的惊人聊天机器人 ChatGPT 的狂热兴趣，发展成了一个销售更先进聊天机器人和 AI 模型访问权限的不断增长的业务。在上周的 TED 采访中，Altman 表示 OpenAI 每周有 5 亿活跃用户，且使用量“增长非常迅速”。OpenAI 现在提供具有不同能力和不同价格的各种不同模型。该公司最大、最强的模型 GPT-4.5 于 2 月推出，尽管 OpenAI 称此次推出为“研究预览”，因为该产品仍处于实验阶段。该公司还提供名为 o1 和 o3 的模型，这些模型能够进行模拟推理，将问题分解为部分以解决它。这些模型响应查询的时间也更长，对用户来说更昂贵。ChatGPT 的成功激发了一大批模仿者，近年来，竞争对手 AI 公司加大了在研究方面的投资，以追赶 OpenAI。

新的4.1模型在编码方面表现出色

新闻要点

主要内容

关于我们