中国人工智能初创公司超越GPT-5和Claude Sonnet 4.5：你需要了解的事

2025-11-11

新闻要点

2025 年 11 月 6 日，北京 AI 初创公司 Moonshot 开源 Kimi K2 Thinking 模型，在多个性能基准测试中超越 GPT-5 和 Claude Sonnet 4.5，训练成本仅 460 万美元，引发对美国 AI 主导地位的讨论。

- Kimi K2 模型性能超越 GPT-5 等多个美国模型

- Kimi K2 模型训练成本仅 460 万美元

- Kimi K2 模型推理编码及多任务处理能力强

主要内容

中国人工智能初创公司 Moonshot 打破了人工智能发展的预期。其 Kimi K2 思维模型在多个性能基准测试中超越了 OpenAI 的 GPT-5 和 Anthropic 的 Claude Sonnet 4.5，引发了关于美国人工智能主导地位是否正受到成本效益高的中国创新挑战的新一轮辩论。

总部位于北京的 Moonshot AI 由科技巨头阿里巴巴集团和腾讯控股支持，估值 33 亿美元。该公司于 11 月 6 日发布了开源的 Kimi K2 思维模型，实现了行业观察家所称的另一个“DeepSeek 时刻”——这是指总部位于杭州的初创公司早先对人工智能成本假设的颠覆。

性能指标挑战美国模型：根据公司的 GitHub 博客文章，Kimi K2 思维模型在 Humanity's Last Exam 测试中得分 44.9%，超过了 GPT-5 的 41.7%。该模型在 BrowseComp 基准测试中也达到了 60.2%，在 Seal-0 基准测试中得分 56.3%，领先于旨在挑战搜索增强模型在实际研究查询中的表现。

成本效益引发疑问：在 CNBC 报道其训练成本仅为 460 万美元后，该模型的受欢迎程度有所增长，尽管 Moonshot AI 未对成本发表评论。据《南华早报》计算，Kimi K2 思维模型的应用程序编程接口成本比 OpenAI 和 Anthropic 的模型低 6 到 10 倍。

技术能力和局限性：Moonshot AI 研究人员表示，Kimi K2 思维模型在评估推理、编码和智能体能力的基准测试中创下了新纪录。该模型可在无需人工干预的情况下执行多达 200 - 300 次连续工具调用，在数百个步骤中连贯推理以解决复杂问题。然而，艾伦人工智能研究所的研究员 Nathan Lambert 表示，最佳的封闭和开放模型在原始性能方面仍存在约 4 到 6 个月的时间差。

中国人工智能初创公司超越GPT-5和Claude Sonnet 4.5：你需要了解的事

新闻要点

主要内容

关于我们