AI模型开始通过自问自答学习 - AI News
AI模型开始通过自问自答学习

AI模型开始通过自问自答学习

2026-01-07

新闻要点

清华、北京通用人工智能研究院(BIGAI)与宾夕法尼亚州立大学团队开发的Absolute Zero Reasoner(AZR)系统,让AI通过自生成挑战性Python代码问题、解决并验证结果优化自身,显著提升开源语言模型Qwen(70亿、140亿参数版)的编码和推理技能,甚至超过部分人类 curated 数据训练的模型;该方法或扩展到网页浏览等任务,为AI摆脱模仿、更类人学习提供方向。

- AZR系统提升Qwen性能:70亿/140亿参数版编码推理超部分人类数据模型

- AZR工作流程:生成Python问题、解决验证、用结果优化模型

- 应用扩展:未来或支持网页浏览、办公室杂务等智能体任务

- 行业关注:Salesforce、Meta等机构已有类似自玩项目

- 技术渊源:自玩理念曾被Schmidhuber等AI先驱探索

主要内容

清华大学、北京通用人工智能研究院(BIGAI)与宾夕法尼亚州立大学合作的"绝对零度推理器(AZR)"项目显示,AI可通过自我提问推理学习,而非单纯模仿人类成果。该系统先由大型语言模型生成可解Python编码问题,自主解决后运行验证,最终根据结果优化模型,显著提升了70亿和140亿参数量的开源语言模型Qwen的编码与推理能力,甚至超过部分人工数据训练的模型。

研究人员Andrew Zhao(清华博士生)表示,该方法类似人类从模仿到自主提问的学习过程:"初期模仿父母老师,最终需自主提问,甚至超越前人。" 类似概念此前由AI先驱Jürgen Schmidhuber等学者探索。

BIGAI研究员Zilong Zheng指出,系统核心优势是问题难度随模型能力增强而提升。目前仅适用于数学、编码等可验证任务,未来或拓展至网页浏览、办公等代理型AI任务,如判断代理行为正确性。

该方法理论上可突破人类教学局限,迈向超级智能。目前Salesforce等团队开发的Agent0、Meta等机构的相关研究均采用类似自我交互方式,被视为"超级智能软件代理训练的第一步"。

随着传统数据稀缺且昂贵,寻找AI新学习方式成为行业重点。Absolute Zero或推动AI从"模仿者"转向更接近人类的自主学习者。