主要内容
OpenAI 时隔五年发布首个开放权重模型。这两个语言模型 gpt-oss-120b 和 gpt-oss-20b 可在消费级设备上本地运行,并可针对特定目的进行微调。对 OpenAI 而言,这意味着其从近期专注于专有发布的策略转变,朝着更广泛、更开放的可供用户使用的 AI 模型群体迈进。OpenAI 首席执行官 Sam Altman 在邮件声明中表示:“我们很高兴推出这个模型,这是数十亿美元研究的成果,将其提供给世界,让尽可能多的人拥有 AI。”
gpt-oss-120b 和 gpt-oss-20b 已在流行的 AI 工具托管平台 Hugging Face 上正式免费下载。OpenAI 上次发布开放权重模型是在 2019 年的 GPT-2。开放权重模型的特点是其“权重”公开,意味着任何人都可查看内部参数以了解其信息处理方式。联合创始人 Greg Brockman 认为,此次发布是对公司付费服务的“补充”,而非通过免费选项削弱专有模型。
这两个新模型采用思维链推理方法,与 ChatGPT 不同,可在无互联网连接且在防火墙后运行。它们是纯文本模型,虽非多模态,但可浏览网页、调用云模型协助任务、执行代码并作为 AI 代理导航软件。较小的 gpt-oss-20b 内存超过 16GB 时可在消费级设备上本地运行。
OpenAI 的这两个新模型遵循 Apache 2.0 许可证,该许可证在开放权重模型中很受欢迎。与阿里巴巴的 Qwen 和 Mistral 的开放权重模型一样。3 月公开宣布后,这些开放模型的发布因进一步安全测试而延迟。发布开放权重模型可能比封闭版本更危险,因为它消除了使用工具的障碍,任何人都可尝试针对非预期目的微调 gpt-oss 版本。
OpenAI 对这些模型进行了常规评估,并针对潜在的恶意使用进行了定制测试,结果显示其风险未达到较高水平。OpenAI 研究员 Chris Koch 表示,这两个模型的基准得分很强,gpt-oss-120b 的性能与专有 o3 和 o4-mini 模型相近,甚至在某些评估中表现更优。在发布前的新闻发布会上,OpenAI 员工还强调了 gpt-oss 的延迟和运行成本较低。今年初,中国初创公司 DeepSeek 发布的可低成本运行的开放权重模型令硅谷震惊。