AI智能体的数学逻辑站不住脚 - AI News
AI智能体的数学逻辑站不住脚

AI智能体的数学逻辑站不住脚

2026-01-23

新闻要点

近期,AI agents的可行性引发行业争议。Vishal Sikka父子发表论文,通过数学证明Transformer - 基于语言模型无法可靠执行复杂计算及代理任务,非纯预测模型也无法解决问题,称其不应用于核电站等关键场景;而Harmonic公司则声称用Lean编程语言的数学验证方法提升AI编码可靠性,其产品Aristotle在基准测试中表现领先。同时,Google等企业在达沃斯论坛提及减少幻觉的突破,编码领域AI agent已获成功,但OpenAI承认幻觉问题仍存在且准确率难达100%,AI agents仅适用于简单任务如文件处理,且可能存在错误。

- Vishal Sikka父子论文:数学证明Transformer模型无法可靠执行复杂计算/代理任务

- Harmonic突破:用Lean语言验证AI编码输出,提升可靠性,Aristotle基准领先

- Google等称减少幻觉有突破,编码领域AI agent已成功应用

- OpenAI承认幻觉问题难100%解决,AI agents仅适用于简单任务

主要内容

# 2025 "AI代理年"落空:数学研究戳破LLM可靠性神话

2025年本应是被AI巨头炒作的"AI代理年",但最终沦为空谈,行业将这一转变愿景推迟至2026年甚至更久。然而,一份数月前低调发表的学术论文却以数学为利刃,刺穿了AI代理的乌托邦幻想——Transformer语言模型(LLMs)根本无法可靠完成超越特定复杂度的计算与代理任务。

该论文由前SAP首席技术官维沙尔·西卡(Vishal Sikka)与其师从AI先驱约翰·麦卡锡的天才少年儿子共同完成。西卡表示:"无论如何改进,这些模型都不可能可靠。"他举例称,AI代理或许能帮忙整理文件节省时间,但核电站等关键任务绝不可托付。

行业对此观点坚决反对。谷歌AI负责人、诺贝尔物理学奖得主戴米斯·哈萨比斯本周在达沃斯论坛宣布,已在减少"幻觉"(Hallucinations)方面取得突破;超大规模云服务提供商与初创公司则纷纷押注AI代理叙事。其中,初创公司Harmonic通过数学方法实现了AI编码的可靠性突破,其产品Aristotle基于Lean编程语言验证输出,在基准测试中表现优异。

Harmonic联合创始人、Robinhood CEO弗拉德·特内夫与斯坦福数学家图多尔·阿奇姆指出,AI代理在编码等领域已获成功,"但像历史论文这类无法数学验证的任务仍超出能力范围"。阿奇姆认为,当前模型已具备处理旅行规划等简单推理任务的能力。

这场争论本质上是AI行业的乐观主义与学术严谨性的碰撞。正如西卡所言:"我们或许能接受AI代理犯错,但必须认清其局限性。"而行业则坚信,随着技术迭代,数学驱动的可靠性将为AI代理铺平道路。