中国DeepSeek V3.2 AI模型以少量计算预算取得前沿性能 - AI News
中国DeepSeek V3.2 AI模型以少量计算预算取得前沿性能

中国DeepSeek V3.2 AI模型以少量计算预算取得前沿性能

2025-12-02

新闻要点

杭州实验室DeepSeek于周一发布DeepSeek V3.2 AI模型,该模型在使用更少训练FLOPs的情况下比肩OpenAI GPT-5的推理性能;其开源版本允许企业控制部署架构,Speciale变体获2025国际数学及信息学奥赛金牌,DSA技术降低计算复杂度,为受限芯片环境下的AI发展提供新思路。

- DeepSeek V3.2比肩GPT-5推理性能,用更少训练FLOPs

- Speciale变体获2025奥数及信息学奥赛金牌

- DSA技术将注意力复杂度从O(L²)降至O(Lk)

- 模型开源,企业可控制部署架构且成本高效

- 受限芯片环境下实现前沿AI性能突破

主要内容

中国DeepSeek公司研发的DeepSeek V3.2 AI模型,在推理基准测试中达到与OpenAI GPT-5相当水平,但其训练计算量(FLOPs)显著更低,这一突破或重塑AI行业的发展路径。该模型周一发布基础版与Speciale版,其中Speciale版本在2025年国际数学奥林匹克与信息学奥林匹克中获金牌,超越同类模型表现,在AIME数学竞赛等权威测试中也取得优异成绩。

DeepSeek V3.2的开源特性允许企业自主评估并部署模型架构,在芯片出口限制导致资源受限的情况下,仍通过架构创新实现高效训练。其核心技术“DeepSeek稀疏注意力(DSA)”机制,通过“闪电索引器”筛选关键信息,将核心注意力复杂度从O(L²)降至O(Lk)(k为关键信息比例),大幅降低计算量。

该公司通过强化学习优化而非蛮力扩展实现高性能,训练预算中后训练计算占比超10%。基础版在AIME 2025中准确率达93.1%,Speciale版更高达96.0%,在哈佛-麻省理工数学锦标赛(HMMT)中得分99.2%,企业测试中编码准确率46.4%,为AI规模化应用提供高性价比解决方案。