主要内容
研究人员推出了 RAGEN 这一 AI 框架,旨在应对大型语言模型(LLM)在处理复杂情况时的不稳定性。训练这些 AI 代理面临着重大障碍,尤其是在决策涉及多个步骤且环境反馈不可预测的情况下。虽然强化学习(RL)在解决数学问题或生成代码等静态任务中显示出了前景,但其在动态、多轮代理训练中的应用却较少被探索。
为解决这一差距,来自西北大学、斯坦福大学、微软和纽约大学等机构的一个合作团队提出了 StarPO(状态-思考-行动-奖励策略优化)。StarPO 提供了一种在轨迹层面训练代理的通用方法(即它优化整个交互序列,而不仅仅是单个动作)。伴随而来的是 RAGEN,这是一个为实现 StarPO 而构建的模块化系统。这使得能够在强化学习下训练和评估 LLM 代理,特别关注其推理能力。RAGEN 为多轮、随机(随机确定)环境中的展开、奖励分配和优化提供了必要的基础设施。
极简环境,最大洞察:为了将核心学习挑战与诸如广泛的先验知识或特定任务工程等混杂因素隔离开来,研究人员使用 RAGEN 在三个特意设计的极简、可控符号游戏环境中测试了 LLM:
强盗:单轮、随机任务,测试对风险敏感的符号推理。代理在具有不同且最初未知奖励特征的选项(如“凤凰”或“龙”武器)之间进行选择。
推箱子:多轮、确定性谜题,需要预见和规划,因为动作(推箱子)是不可逆的。
冰冻湖:多轮、随机网格导航任务,其中移动尝试可能随机失败,需要在不确定性下进行规划。这些环境允许清晰分析代理如何仅通过交互学习决策策略。
关键发现:稳定性、展开和推理:关于自进化 LLM 代理的训练,该研究得出了三个重要发现:
“回声陷阱”与稳定性需求:在多轮 RL 训练期间观察到的一个反复出现的问题被称为“回声陷阱”。代理最初会有所改进,但随后会出现性能崩溃,过度拟合到局部奖励的推理模式。这表现为奖励方差下降、熵(随机性/探索性的度量)下降以及梯度突然上升(表明训练不稳定)。早期迹象包括奖励标准差和输出熵的下降。
为了应对这一问题,团队开发了 StarPO-S,这是该框架的稳定版本。StarPO-S 包括:基于方差的轨迹过滤:将训练重点放在代理行为显示更高不确定性(更高奖励方差)的任务实例上,丢弃低方差、信息较少的展开。这提高了稳定性和效率。
评论家纳入:在大多数测试中,使用如 PPO(近端策略优化)等方法,该方法使用“评论家”来估计价值,通常比无评论家方法如 GRPO(组相对策略优化)表现出更好的稳定性。
解耦裁剪和 KL 去除:从其他研究(DAPO)中改编的技术,涉及不对称裁剪(允许从正奖励中进行更积极的学习)和去除 KL 散度惩罚(鼓励探索),进一步提高了稳定性和性能。与原始 StarPO 相比,StarPO-S 始终延迟了崩溃并提高了最终任务性能。
展开质量至关重要:展开(用于训练的模拟交互轨迹)的特征对于训练的成功至关重要。