主要内容
# 2025 "AI代理年"落空:数学研究戳破LLM可靠性神话
2025年本应是被AI巨头炒作的"AI代理年",但最终沦为空谈,行业将这一转变愿景推迟至2026年甚至更久。然而,一份数月前低调发表的学术论文却以数学为利刃,刺穿了AI代理的乌托邦幻想——Transformer语言模型(LLMs)根本无法可靠完成超越特定复杂度的计算与代理任务。
该论文由前SAP首席技术官维沙尔·西卡(Vishal Sikka)与其师从AI先驱约翰·麦卡锡的天才少年儿子共同完成。西卡表示:"无论如何改进,这些模型都不可能可靠。"他举例称,AI代理或许能帮忙整理文件节省时间,但核电站等关键任务绝不可托付。
行业对此观点坚决反对。谷歌AI负责人、诺贝尔物理学奖得主戴米斯·哈萨比斯本周在达沃斯论坛宣布,已在减少"幻觉"(Hallucinations)方面取得突破;超大规模云服务提供商与初创公司则纷纷押注AI代理叙事。其中,初创公司Harmonic通过数学方法实现了AI编码的可靠性突破,其产品Aristotle基于Lean编程语言验证输出,在基准测试中表现优异。
Harmonic联合创始人、Robinhood CEO弗拉德·特内夫与斯坦福数学家图多尔·阿奇姆指出,AI代理在编码等领域已获成功,"但像历史论文这类无法数学验证的任务仍超出能力范围"。阿奇姆认为,当前模型已具备处理旅行规划等简单推理任务的能力。
这场争论本质上是AI行业的乐观主义与学术严谨性的碰撞。正如西卡所言:"我们或许能接受AI代理犯错,但必须认清其局限性。"而行业则坚信,随着技术迭代,数学驱动的可靠性将为AI代理铺平道路。