为开发者推出通用人工智能安全模型

2025-10-29

新闻要点

OpenAI 推出“safeguard”模型，将安全控制权交予开发者。该模型旨在定制内容分类，含 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两个版本，基于 Apache 2.0 许可。其创新在以推理能力解读开发者政策，具有透明、灵活优势，未来将在 Hugging Face 平台供开发者使用。

- OpenAI 推出“safeguard”开放权重 AI 安全模型

- 新模型含 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两个版本

- 模型采用推理能力解读开发者政策

- 新模型将在 Hugging Face 平台供开发者使用

主要内容

OpenAI 正通过新的“保障”模型研究预览，将更多安全控制直接交到 AI 开发者手中。新的“gpt-oss-safeguard”系列开放权重模型旨在专门用于内容分类定制。新推出的产品将包括两个模型，gpt-oss-safeguard-120b 和较小的 gpt-oss-safeguard-20b。两者都是现有 gpt-oss 系列的微调版本，将根据宽松的 Apache 2.0 许可证提供。这将允许任何组织根据自身需求自由使用、调整和部署这些模型。
这里的真正区别不仅在于开放许可证，还在于方法。gpt-oss-safeguard 不是依赖于模型中内置的固定规则集，而是在推理点使用其推理能力来解释开发者自己的政策。这意味着使用 OpenAI 新模型的 AI 开发者可以设置自己的特定安全框架，对从单个用户提示到完整聊天历史的任何内容进行分类。开发者而非模型提供商对规则集有最终决定权，并可根据其特定用例进行定制。
这种方法有几个明显的优势：透明度，模型使用思维链过程，开发者可以查看模型分类的逻辑，这是对典型“黑箱”分类器的巨大改进；敏捷性，由于安全政策不是永久训练到 OpenAI 的新模型中，开发者可以在不进行完全重新训练的情况下实时迭代和修改其指南。
OpenAI 最初为其内部团队构建了这个系统，指出这是一种比训练传统分类器间接猜测政策含义更灵活的处理安全的方式。使用开源 AI 模型的开发者现在可以构建和执行自己的特定标准，而不是依赖平台持有者的一刀切安全层。虽然在撰写本文时尚未上线，但开发者将能够在 Hugging Face 平台上访问 OpenAI 的新开放权重 AI 安全模型。

为开发者推出通用人工智能安全模型

新闻要点

主要内容

关于我们