阿里巴巴Qwen QwQ-32B：强化学习规模化展示

2025-03-06

新闻要点

阿里巴巴Qwen团队发布了QwQ-32B，这是一款320亿参数的人工智能模型，其表现与拥有6710亿参数（激活370亿）的DeepSeek-R1相媲美。这一突破展示了强化学习在稳固的基础模型上扩展的潜力。Qwen团队已成功将代理功能整合到推理模型中，使其能够进行批判性思考、使用工具，并根据环境反馈调整推理。该模型在多个基准测试中表现优异，展现了其在数学推理、编码能力和一般问题解决能力方面的能力。此外，Qwen团队采用了一种冷启动检查点和基于结果的奖励驱动的多阶段强化学习过程，进一步提高了模型性能。该模型以开源形式提供，并计划继续探索代理与强化学习在长远推理中的整合，以推动向通用人工智能的迈进。

- QwQ-32B表现与DeepSeek-R1相当

- 团队采用冷启动检查点和多阶段强化学习过程

- 模型在多个基准测试中表现优异

阿里巴巴Qwen QwQ-32B：强化学习规模化展示

新闻要点

关于我们