主要内容
《量子杂志》曾报道,我们曾期待自动驾驶汽车和机器人女佣,然而如今却看到人工智能系统的兴起,它们能在国际象棋中击败我们、分析大量文本并创作十四行诗。这是现代的一大惊喜:对人类而言轻松的体力任务对机器人来说却非常困难,而算法却越来越能模仿我们的智力。
长期困扰研究人员的另一个惊喜是,这些算法具有独特的创造力。扩散模型是 DALL·E、Imagen 和 Stable Diffusion 等图像生成工具的骨干,旨在生成训练图像的复制品。但实际上,它们似乎能即兴创作,融合图像中的元素以创造新事物——不仅是无意义的颜色斑点,而是有语义意义的连贯图像。巴黎高等师范学院的人工智能研究员和物理学家朱利奥·比罗利说,这是扩散模型背后的“悖论”:“如果它们完美运作,就应该只是记忆,”他说,“但它们实际上能够生成新样本。”
为生成图像,扩散模型使用去噪过程。它们将图像转换为数字噪声(像素的无相干集合),然后重新组装。就像反复将一幅画通过碎纸机,直到只剩下一堆细粉尘,然后将碎片重新拼接在一起。多年来,研究人员一直想知道:如果模型只是在重新组装,那么新奇性是如何产生的呢?就像将撕碎的画重新组装成一幅全新的艺术作品。
现在,两位物理学家提出了一个惊人的主张:去噪过程本身的技术缺陷导致了扩散模型的创造力。在 2025 年国际机器学习会议上提交的一篇论文中,这两人开发了一个训练扩散模型的数学模型,以表明它们所谓的创造力实际上是一个确定性过程——是其架构的直接、必然结果。通过揭示扩散模型的黑箱,这项新研究可能对未来的人工智能研究产生重大影响,甚至可能影响我们对人类创造力的理解。荷兰拉德堡德大学的计算机科学家卢卡·安布罗焦尼说:“这篇论文的真正优势在于,它对非常重要的事情做出了非常准确的预测。”斯坦福大学应用物理学研究生、新论文的主要作者梅森·坎布长期以来一直对形态发生学着迷:生物系统自我组装的过程。理解人类和其他动物胚胎发育的一种方法是通过所谓的图灵模式,以 20 世纪数学家艾伦·图灵命名。图灵模式解释了细胞群如何组织成不同的器官和肢体。关键是,这种协调都在局部层面发生。没有首席执行官监督数万亿个细胞以确保它们都符合最终的身体计划。换句话说,单个细胞并没有基于其工作的身体的完整蓝图。它们只是根据来自邻居的信号采取行动并进行纠正。这种自下而上的系统通常运行顺利,但偶尔也会出错——例如产生有额外手指的手。当第一批人工智能生成的图像开始在网上出现时,许多看起来像超现实主义绘画,描绘有额外手指的人类。这让坎布立即想到了形态发生学:“这闻起来像一个你期望从(自下而上)系统中出现的失败,”他说。人工智能研究人员在那时就知道,扩散模型在生成图像时采取了一些技术捷径。首先是所谓的局部性:它们只关注一个群体。