小型人工智能模型击败大型推理大语言模型 - AI News
小型人工智能模型击败大型推理大语言模型

小型人工智能模型击败大型推理大语言模型

2025-10-08

新闻要点

三星人工智能研究员的新论文称,小网络Tiny Recursive Model (TRM)在复杂推理中击败大型语言模型。该模型仅700万个参数,挑战 “越大越好” 观念,为AI发展提供更可持续、参数高效的替代方案。

- TRM参数不到领先LLMs的0.01%,在ARC-AGI测试取得新成果

- 两层TRM泛化能力强,避免过拟合,性能大幅提升

- TRM在多基准测试中成绩出色,超越HRM和众多LLMs

主要内容

三星一位 AI 研究员的新论文解释了在复杂推理中,小型网络如何能击败大型语言模型(LLMs)。在争夺 AI supremacy 的竞赛中,业界的口头禅通常是“越大越好”。科技巨头已投入数十亿美元创建越来越大的模型,但三星蒙特利尔 SAIL 的 Alexia Jolicoeur-Martineau 称,通过微型递归模型(TRM),可能有一条截然不同且更高效的前进道路。
使用仅有 700 万参数的模型,不到领先 LLM 规模的 0.01%,TRM 在诸如 ARC-AGI 智能测试等著名的困难基准测试中取得了新的最先进结果。三星的工作挑战了纯粹规模是推进 AI 模型能力的唯一途径这一普遍假设,提供了一种更可持续且参数效率更高的替代方案。
尽管 LLM 在生成类人文本方面显示出令人难以置信的能力,但它们执行复杂多步推理的能力可能很脆弱。因为它们逐个生成答案,过程早期的一个错误就可能扰乱整个解决方案,导致无效的最终答案。已开发出诸如思维链等技术来减轻此问题,但这些方法计算成本高,通常需要大量高质量的推理数据,且仍可能产生有缺陷的逻辑。
三星的工作基于最近的一种名为分层推理模型(HRM)的 AI 模型。HRM 引入了一种使用两个小型神经网络的新方法,这些网络以不同频率递归地处理问题以细化答案。它显示出很大的潜力,但很复杂,依赖于不确定的生物学论证和复杂的定点定理,这些定理不能保证适用。
TRM 用一个单一的小型网络代替 HRM 的两个网络,该网络递归地改进其内部“推理”和提出的“答案”。该模型给定问题、答案的初始猜测和潜在推理特征。它首先通过几个步骤根据所有三个输入细化其潜在推理,然后使用改进的推理更新其对最终答案的预测。整个过程可重复最多 16 次,使模型以高度参数高效的方式逐步纠正自己的错误。
令人惊讶的是,研究发现仅两层的小型网络比四层版本的泛化能力好得多。这种尺寸的减小似乎防止了模型过拟合,这是在较小的专用数据集上训练时的常见问题。TRM 还摒弃了其前身使用的复杂数学证明。原始的 HRM 模型需要假设其函数收敛到一个固定点来证明其训练方法。TRM 通过简单地在其完整递归过程中进行反向传播完全绕过了这一点。仅这一变化就大幅提高了性能,在消融研究中,将数独极端基准的准确率从 56.5%提高到 87.4%。
三星的模型以更少的资源打破了 AI 基准。在仅使用 1000 个训练示例的数独极端数据集上,TRM 达到了 87.4%的测试准确率,与 HRM 的 55%相比有了巨大飞跃。在涉及在 30×30 迷宫中找到长路径的迷宫难题上,TRM 得分为 85.3%,而 HRM 为 74.5%。最值得注意的是,TRM 在抽象和推理语料库(ARC-AGI)上取得了巨大进步,这是一个旨在衡量 AI 中真正流体智能的基准。仅用 700 万参数,TRM 在 ARC-AGI-1 上达到 44.6%的准确率,在 ARC-AGI-2 上达到 7.8%。这超过了使用 2700 万参数模型的 HRM,甚至超越了许多世界上最大的 LLM。