这个AI模型能凭直觉理解物理世界如何运作

2025-12-07

Meta于2024年发布的V-JEPA AI模型可通过视频学习物理世界直觉，并对违背已有知识的信息表现出“惊讶”反应。该模型无需预设物理规则，采用latent表示而非像素预测，解决传统模型易忽略关键细节的局限，认知科学家Micha Heilbron认为其主张合理且结果有趣。

- V-JEPA模型：通过视频学习物理直觉，对违背知识的信息表现惊讶

- Meta 2024发布V-JEPA：JEPA图像模型的视频升级版

- V-JEPA技术创新：用latent表示而非像素预测，避免无关细节干扰

- 专家评价：Micha Heilbron认可其主张合理且结果有趣

- 解决痛点：克服传统像素空间模型易忽略关键细节的局限

婴儿对物体恒存性的认知实验揭示了早期认知能力：6个月大的婴儿会对“物体被遮挡后消失”感到惊讶，1岁时几乎都能理解物体即使看不见也持续存在。如今，Meta开发的AI系统V-JEPA（视频联合嵌入预测架构）也展现了类似能力——通过观看视频学习世界规则，当信息违背已有认知时会表现出“惊讶”反应。

传统AI理解视频多采用“像素空间”模型，将每个像素视为同等重要。这种方式容易陷入细节冗余：比如在街道场景中，系统可能过度关注树叶晃动，却忽略交通灯颜色或汽车位置。“像素空间模型无法高效处理关键信息，”布朗大学计算机科学家Randall Balestriero指出。

V-JEPA通过“潜在表示”（latent representations）解决了这一问题。它不直接处理像素，而是将视频内容抽象为关键特征——例如将圆柱体图像转化为高度、宽度等参数，再由解码器还原。这种方式能过滤冗余信息，专注捕捉场景本质。

该系统架构包含编码器1、编码器2和预测器三部分。训练时，算法会掩码视频帧中的部分像素，先通过编码器1和2将图像转化为潜在表示，再由预测器学习还原这些特征。这一设计让AI能像婴儿观察世界般，自动识别关键信息。

阿姆斯特丹大学认知科学家Micha Heilbron评价：“V-JEPA的假设合理，结果令人兴奋。”该系统或为自动驾驶等需可靠视觉理解的AI应用提供突破。V-JEPA是2022年LeCun开发的静态图像模型JEPA的升级版，2024年发布后进一步优化了动态视频处理能力。