新的推理人工智能模型创下开源记录 - AI News
新的推理人工智能模型创下开源记录

新的推理人工智能模型创下开源记录

2025-07-25

新闻要点

阿里巴巴 Qwen 团队发布开源推理 AI 模型 Qwen3-235B-A22B-Thinking-2507,在多领域表现出色 ,设置开源记录。其在推理基准测试中有高得分,参数达 2350 亿,内存大,易上手,为开发者提供强大工具。

- Qwen 新模型在多项推理基准测试中取得高分数

- 模型 2350 亿参数 激活约 220 亿 内存大

- 模型开源 易上手 提供使用技巧与框架

主要内容

阿里巴巴的 Qwen 团队刚刚发布了其开源推理 AI 模型的新版本,有一些令人印象深刻的基准测试成绩。来认识一下 Qwen3 - 235B - A22B - Thinking - 2507。
在过去的三个月里,Qwen 团队一直在努力提升他们所称的 AI 的“思考能力”,旨在提高其推理的质量和深度。他们努力的结果是一个在真正困难的领域表现出色的模型:逻辑推理、复杂数学、科学问题和高级编码。
在这些通常需要人类专家的领域,这个新的 Qwen 模型现在为开源模型设定了标准。在推理基准测试中,Qwen 最新的开源 AI 模型在 AIME25 上达到 92.3,在 LiveCodeBench v6 上达到 74.1 用于编码。在更通用的能力测试中,它在 Arena - Hard v2 上得分 79.7,该测试衡量其与人类偏好的契合度。
其核心是 Qwen 团队的一个大型推理 AI 模型,总共有 2350 亿个参数。然而,它使用专家混合(MoE),这意味着在任何时候它只激活其中约 220 亿个参数的一部分。可以将其想象成有一个由 128 名专家组成的庞大团队随时待命,但只有最适合特定任务的 8 名专家被召集来实际工作。
也许其最令人印象深刻的功能之一是其巨大的内存。Qwen 的开源推理 AI 模型的本地上下文长度为 262,144 个令牌;这对于涉及理解大量信息的任务是一个巨大的优势。
对于那些开发者和喜欢鼓捣的人来说,Qwen 团队使其易于上手。该模型可在 Hugging Face 上使用。您可以使用 sglang 或 vllm 等工具进行部署,以创建自己的 API 端点。该团队还指出他们的 Qwen - Agent 框架是利用模型的工具调用技能的最佳方式。
为了从他们的开源 AI 推理模型中获得最佳性能,Qwen 团队分享了一些技巧。他们建议大多数任务的输出长度约为 32,768 个令牌,但对于非常复杂的挑战,您应该将其提高到 81,920 个令牌,以给 AI 足够的空间“思考”。他们还建议在提示中给模型特定的指令,例如要求它“逐步推理”数学问题,以获得最准确和结构良好的答案。
这个新的 Qwen 模型的发布提供了一个强大而开源的推理 AI,能够与一些最好的专有模型相媲美,尤其是在复杂、令人绞尽脑汁的任务方面。看到开发者最终用它构建出什么将是令人兴奋的。(图片由 Tung Lam 提供)