这个AI模型能凭直觉理解物理世界如何运作 - AI News
这个AI模型能凭直觉理解物理世界如何运作

这个AI模型能凭直觉理解物理世界如何运作

2025-12-07

新闻要点

Meta于2024年发布的V-JEPA AI模型可通过视频学习物理世界直觉,并对违背已有知识的信息表现出“惊讶”反应。该模型无需预设物理规则,采用latent表示而非像素预测,解决传统模型易忽略关键细节的局限,认知科学家Micha Heilbron认为其主张合理且结果有趣。

- V-JEPA模型:通过视频学习物理直觉,对违背知识的信息表现惊讶

- Meta 2024发布V-JEPA:JEPA图像模型的视频升级版

- V-JEPA技术创新:用latent表示而非像素预测,避免无关细节干扰

- 专家评价:Micha Heilbron认可其主张合理且结果有趣

- 解决痛点:克服传统像素空间模型易忽略关键细节的局限

主要内容

婴儿对物体恒存性的认知实验揭示了早期认知能力:6个月大的婴儿会对“物体被遮挡后消失”感到惊讶,1岁时几乎都能理解物体即使看不见也持续存在。如今,Meta开发的AI系统V-JEPA(视频联合嵌入预测架构)也展现了类似能力——通过观看视频学习世界规则,当信息违背已有认知时会表现出“惊讶”反应。

传统AI理解视频多采用“像素空间”模型,将每个像素视为同等重要。这种方式容易陷入细节冗余:比如在街道场景中,系统可能过度关注树叶晃动,却忽略交通灯颜色或汽车位置。“像素空间模型无法高效处理关键信息,”布朗大学计算机科学家Randall Balestriero指出。

V-JEPA通过“潜在表示”(latent representations)解决了这一问题。它不直接处理像素,而是将视频内容抽象为关键特征——例如将圆柱体图像转化为高度、宽度等参数,再由解码器还原。这种方式能过滤冗余信息,专注捕捉场景本质。

该系统架构包含编码器1、编码器2和预测器三部分。训练时,算法会掩码视频帧中的部分像素,先通过编码器1和2将图像转化为潜在表示,再由预测器学习还原这些特征。这一设计让AI能像婴儿观察世界般,自动识别关键信息。

阿姆斯特丹大学认知科学家Micha Heilbron评价:“V-JEPA的假设合理,结果令人兴奋。”该系统或为自动驾驶等需可靠视觉理解的AI应用提供突破。V-JEPA是2022年LeCun开发的静态图像模型JEPA的升级版,2024年发布后进一步优化了动态视频处理能力。