主要内容
OpenAI 正大肆投入以确保其 AI 计算供应链,作为其多云战略的一部分,与 AWS 签署了新协议。该公司最近结束了与微软的独家云计算合作关系。此后,据报道,它向微软分配了 2500 亿美元,向甲骨文分配了 3000 亿美元,现在又向亚马逊网络服务(AWS)签署了一份为期数年的新协议,金额为 380 亿美元。这 380 亿美元的 AWS 协议虽然是三者中最小的,但却是 OpenAI 多元化计划的一部分。对于行业领导者来说,OpenAI 的行动表明,获得高性能 GPU 不再是按需商品,而是一种需要大量长期资本投入的稀缺资源。
AWS 协议为 OpenAI 提供了访问数十万个 NVIDIA GPU 的机会,包括新的 GB200 和 GB300,以及利用数千万个 CPU 的能力。这种强大的基础设施不仅用于训练未来的模型,还用于运行当今 ChatGPT 的大规模推理工作负载。正如 OpenAI 联合创始人兼首席执行官 Sam Altman 所说:“扩展前沿 AI 需要大规模、可靠的计算。”
这种投入热潮正在促使超大规模提供商做出竞争反应。虽然 AWS 仍然是行业最大的云提供商,但微软和谷歌最近的云收入增长更快,通常是通过吸引新的 AI 客户。这一 AWS 协议是为了确保一个基石 AI 工作负载并证明其大规模 AI 能力的明确尝试,它声称包括运行超过 50 万个芯片的集群。
AWS 不仅提供标准服务器,还为 OpenAI 构建了一个复杂的、专门设计的架构,使用 EC2 UltraServers 连接 GPU,以满足大规模训练所需的低延迟网络。AWS 首席执行官 Matt Garman 表示:“优化计算的广度和即时可用性表明,为什么 AWS 在支持 OpenAI 的大量 AI 工作负载方面具有独特的地位。”
但“即时”是相对的。OpenAI 最新云 AI 协议的全部容量要到 2026 年底才能完全部署,并有进一步扩展到 2027 年的选项。这个时间表为任何计划 AI 部署的高管提供了一剂现实:硬件供应链复杂,按多年计划运作。
那么,企业领导者应该从这一事件中得到什么呢?首先,AI 基础设施的“自建还是购买”之争几乎已经结束。OpenAI 正在花费数千亿在租用的硬件之上进行建设。很少有其他公司能够或应该效仿。这将市场的其他部分坚定地推向管理平台,如亚马逊 Bedrock、谷歌 Vertex AI 或 IBM watsonx,超大规模提供商承担了这种基础设施风险。其次,单一云用于 AI 工作负载的日子可能已经屈指可数。OpenAI 向多提供商模式的转变是减轻集中风险的教科书案例。对于 CIO 来说,依赖一个供应商来运行核心业务流程的计算正在成为一场赌博。最后,AI 预算已经离开部门 IT 领域,进入了公司资本规划的世界。这些不再是可变的运营费用。确保 AI 计算现在是一项长期的财务承诺,就像建造一个新工厂或数据中心一样。