开发者称GPT-5喜忧参半

2025-08-15

新闻要点

上周OpenAI推出GPT-5 ，称其是“真正的编码协作伙伴”，但开发者认为它喜忧参半。它在技术推理等方面出色，性价比高但准确性欠佳，在编码任务表现上有争议，不同开发者体验不同。

- GPT-5技术推理强但部分人认为代码生成不如Anthropic

- GPT-5价格亲民中等版本测试成本仅30美元

- 部分开发者称 GPT-5完成复杂编码任务表现更好

主要内容

上周，OpenAI 推出 GPT-5 时，向软件工程师表示该模型旨在成为“真正的编码协作伙伴”，擅长生成高质量代码并执行代理或自动化软件任务。虽未明确说明，但 OpenAI 似乎将矛头直接指向 Anthropic 的 Claude Code，后者已迅速成为许多开发者青睐的 AI 辅助编码工具。但开发者向《连线》杂志表示，目前 GPT-5 喜忧参半。它在技术推理和规划编码任务方面表现出色，但有人称 Anthropic 的最新 Opus 和 Sonnet 推理模型仍能生成更好的代码。根据开发者使用的 GPT-5 版本（低、中、高详细程度），该模型可能更详细，有时会导致生成不必要或冗余的代码行。一些软件工程师还批评了 OpenAI 评估 GPT-5 编码性能的方式，认为其使用的基准具有误导性。一家研究公司称 OpenAI 发布的吹嘘 GPT-5 能力的图表为“图表犯罪”。

GPT-5 至少在一个方面表现突出：多人指出，与竞争模型相比，它是更具成本效益的选择。普林斯顿大学计算机科学博士生兼研究员 Sayash Kapoor 表示：“在我们的测试中，GPT-5 大多被其他 AI 模型超越，但它确实很便宜。”Kapoor 称，自上周该模型向公众发布以来，他和团队一直在进行基准测试以评估其能力。他指出，团队使用的标准测试（衡量语言模型编写能重现 45 篇科学论文结果的代码的能力），在 GPT-5 设置为中或中等详细程度时运行成本为 30 美元。使用 Anthropic 的 Opus 4.1 进行相同测试的成本为 400 美元。Kapoor 表示，他的团队迄今已花费约 20,000 美元测试 GPT-5。

尽管 GPT-5 便宜，但 Kapoor 的测试表明，该模型也不如其一些竞争对手准确。Claude 的高级模型在准确重现科学论文的数量方面达到了 51%的准确率评级。GPT-5 的中版本获得了 27%的准确率评级。（Kapoor 尚未使用 GPT-5 高版本进行相同测试，因此这是一个间接比较，因为 Opus 4.1 是 Anthropic 最强大的模型。）

OpenAI 发言人 Lindsay McCallum 让《连线》杂志参考其博客，其中称在与初创企业和企业的早期测试人员合作的“真实世界编码任务”上训练了 GPT-5。该公司还强调了 GPT-5 的一些内部准确率测量结果，表明在所有 OpenAI 模型中，进行更刻意推理的 GPT-5“思维”模型在准确率方面得分最高。然而，在 OpenAI 自己的准确率尺度上，GPT-5“主”版本仍落后于先前发布的模型。

Anthropic 发言人 Amie Rotherham 在一份声明中表示：“一旦开发者在生产环境中开始使用，性能声明和定价模型往往看起来不同。由于推理模型在思考时可能会迅速使用大量标记，该行业正在走向一个按结果定价比按标记定价更重要的世界。”

一些开发者表示，到目前为止，他们对 GPT-5 的体验大多是积极的。工程师、投资者和个人造型代理 Alta 的创建者 Jenny Wang 向《连线》杂志表示，该模型在一次性完成复杂编码任务方面似乎比其他模型更好。她将其与 OpenAI 的 o3 和 4o 进行了比较，她经常使用它们进行代码生成和简单修复，“如格式化，或如果我想创建一个与我已有的类似的 API 端点”，Wang 说。在她对 GPT-5 的测试中，Wang 要求该模型为她公司的网站生成一个新闻页面的代码，包括与网站其余部分美学相匹配的特定设计元素。GPT-5 在 0 时间内完成了任务。

开发者称GPT-5喜忧参半

新闻要点

主要内容

关于我们