主要内容
中国人工智能初创公司 Moonshot 打破了人工智能发展的预期。其 Kimi K2 思维模型在多个性能基准测试中超越了 OpenAI 的 GPT-5 和 Anthropic 的 Claude Sonnet 4.5,引发了关于美国人工智能主导地位是否正受到成本效益高的中国创新挑战的新一轮辩论。
总部位于北京的 Moonshot AI 由科技巨头阿里巴巴集团和腾讯控股支持,估值 33 亿美元。该公司于 11 月 6 日发布了开源的 Kimi K2 思维模型,实现了行业观察家所称的另一个“DeepSeek 时刻”——这是指总部位于杭州的初创公司早先对人工智能成本假设的颠覆。
性能指标挑战美国模型:根据公司的 GitHub 博客文章,Kimi K2 思维模型在 Humanity's Last Exam 测试中得分 44.9%,超过了 GPT-5 的 41.7%。该模型在 BrowseComp 基准测试中也达到了 60.2%,在 Seal-0 基准测试中得分 56.3%,领先于旨在挑战搜索增强模型在实际研究查询中的表现。
成本效益引发疑问:在 CNBC 报道其训练成本仅为 460 万美元后,该模型的受欢迎程度有所增长,尽管 Moonshot AI 未对成本发表评论。据《南华早报》计算,Kimi K2 思维模型的应用程序编程接口成本比 OpenAI 和 Anthropic 的模型低 6 到 10 倍。
技术能力和局限性:Moonshot AI 研究人员表示,Kimi K2 思维模型在评估推理、编码和智能体能力的基准测试中创下了新纪录。该模型可在无需人工干预的情况下执行多达 200 - 300 次连续工具调用,在数百个步骤中连贯推理以解决复杂问题。然而,艾伦人工智能研究所的研究员 Nathan Lambert 表示,最佳的封闭和开放模型在原始性能方面仍存在约 4 到 6 个月的时间差。