开发者称GPT-5喜忧参半 - AI News
开发者称GPT-5喜忧参半

开发者称GPT-5喜忧参半

2025-08-15

新闻要点

上周OpenAI推出GPT-5 ,称其是“真正的编码协作伙伴”,但开发者认为它喜忧参半。它在技术推理等方面出色,性价比高但准确性欠佳,在编码任务表现上有争议,不同开发者体验不同。

- GPT-5技术推理强 但部分人认为代码生成不如Anthropic

- GPT-5价格亲民 中等版本测试成本仅30美元

- 部分开发者称 GPT-5完成复杂编码任务表现更好

主要内容

上周,OpenAI 推出 GPT-5 时,向软件工程师表示该模型旨在成为“真正的编码协作伙伴”,擅长生成高质量代码并执行代理或自动化软件任务。虽未明确说明,但 OpenAI 似乎将矛头直接指向 Anthropic 的 Claude Code,后者已迅速成为许多开发者青睐的 AI 辅助编码工具。但开发者向《连线》杂志表示,目前 GPT-5 喜忧参半。它在技术推理和规划编码任务方面表现出色,但有人称 Anthropic 的最新 Opus 和 Sonnet 推理模型仍能生成更好的代码。根据开发者使用的 GPT-5 版本(低、中、高详细程度),该模型可能更详细,有时会导致生成不必要或冗余的代码行。一些软件工程师还批评了 OpenAI 评估 GPT-5 编码性能的方式,认为其使用的基准具有误导性。一家研究公司称 OpenAI 发布的吹嘘 GPT-5 能力的图表为“图表犯罪”。

GPT-5 至少在一个方面表现突出:多人指出,与竞争模型相比,它是更具成本效益的选择。普林斯顿大学计算机科学博士生兼研究员 Sayash Kapoor 表示:“在我们的测试中,GPT-5 大多被其他 AI 模型超越,但它确实很便宜。”Kapoor 称,自上周该模型向公众发布以来,他和团队一直在进行基准测试以评估其能力。他指出,团队使用的标准测试(衡量语言模型编写能重现 45 篇科学论文结果的代码的能力),在 GPT-5 设置为中或中等详细程度时运行成本为 30 美元。使用 Anthropic 的 Opus 4.1 进行相同测试的成本为 400 美元。Kapoor 表示,他的团队迄今已花费约 20,000 美元测试 GPT-5。

尽管 GPT-5 便宜,但 Kapoor 的测试表明,该模型也不如其一些竞争对手准确。Claude 的高级模型在准确重现科学论文的数量方面达到了 51%的准确率评级。GPT-5 的中版本获得了 27%的准确率评级。(Kapoor 尚未使用 GPT-5 高版本进行相同测试,因此这是一个间接比较,因为 Opus 4.1 是 Anthropic 最强大的模型。)

OpenAI 发言人 Lindsay McCallum 让《连线》杂志参考其博客,其中称在与初创企业和企业的早期测试人员合作的“真实世界编码任务”上训练了 GPT-5。该公司还强调了 GPT-5 的一些内部准确率测量结果,表明在所有 OpenAI 模型中,进行更刻意推理的 GPT-5“思维”模型在准确率方面得分最高。然而,在 OpenAI 自己的准确率尺度上,GPT-5“主”版本仍落后于先前发布的模型。

Anthropic 发言人 Amie Rotherham 在一份声明中表示:“一旦开发者在生产环境中开始使用,性能声明和定价模型往往看起来不同。由于推理模型在思考时可能会迅速使用大量标记,该行业正在走向一个按结果定价比按标记定价更重要的世界。”

一些开发者表示,到目前为止,他们对 GPT-5 的体验大多是积极的。工程师、投资者和个人造型代理 Alta 的创建者 Jenny Wang 向《连线》杂志表示,该模型在一次性完成复杂编码任务方面似乎比其他模型更好。她将其与 OpenAI 的 o3 和 4o 进行了比较,她经常使用它们进行代码生成和简单修复,“如格式化,或如果我想创建一个与我已有的类似的 API 端点”,Wang 说。在她对 GPT-5 的测试中,Wang 要求该模型为她公司的网站生成一个新闻页面的代码,包括与网站其余部分美学相匹配的特定设计元素。GPT-5 在 0 时间内完成了任务。