主要内容
婴儿对物体恒存性的认知实验揭示了早期认知能力:6个月大的婴儿会对“物体被遮挡后消失”感到惊讶,1岁时几乎都能理解物体即使看不见也持续存在。如今,Meta开发的AI系统V-JEPA(视频联合嵌入预测架构)也展现了类似能力——通过观看视频学习世界规则,当信息违背已有认知时会表现出“惊讶”反应。
传统AI理解视频多采用“像素空间”模型,将每个像素视为同等重要。这种方式容易陷入细节冗余:比如在街道场景中,系统可能过度关注树叶晃动,却忽略交通灯颜色或汽车位置。“像素空间模型无法高效处理关键信息,”布朗大学计算机科学家Randall Balestriero指出。
V-JEPA通过“潜在表示”(latent representations)解决了这一问题。它不直接处理像素,而是将视频内容抽象为关键特征——例如将圆柱体图像转化为高度、宽度等参数,再由解码器还原。这种方式能过滤冗余信息,专注捕捉场景本质。
该系统架构包含编码器1、编码器2和预测器三部分。训练时,算法会掩码视频帧中的部分像素,先通过编码器1和2将图像转化为潜在表示,再由预测器学习还原这些特征。这一设计让AI能像婴儿观察世界般,自动识别关键信息。
阿姆斯特丹大学认知科学家Micha Heilbron评价:“V-JEPA的假设合理,结果令人兴奋。”该系统或为自动驾驶等需可靠视觉理解的AI应用提供突破。V-JEPA是2022年LeCun开发的静态图像模型JEPA的升级版,2024年发布后进一步优化了动态视频处理能力。