
Stability AI 发布 Stable Virtual Camera:2D 照片迈向 3D 视频新视界

在生成式 AI 领域持续创新的 Stability AI,近日发布了一款令人瞩目的多视角扩散模型 ——Stable Virtual Camera(稳定虚拟相机,简称 SVC)。该模型能将 2D 图片巧妙转化为沉浸式 3D 视频,为用户带来具有逼真深度和视角效果的全新视觉体验,且无需复杂的重建过程或特定场景优化。
SVC 最大的亮点之一是其强大的动态相机控制功能。它不仅支持用户自定义相机轨迹,还预设了多达 14 种动态相机路径,从常见的 360° 环绕拍摄、∞形轨迹,到富有创意的螺旋式、推轨变焦(dolly zoom),以及基础的平移(pan)、缩放(zoom)、旋转(roll)等操作,都能轻松实现。这意味着用户即使没有专业的 3D 建模经验,也可借助该模型,通过简单设置,让静态图像 “动” 起来,转化为动态的 3D 视觉内容。例如,输入一张卡通小龙的图片,利用 SVC 的 360° 相机路径设置,就能生成一段围绕小龙全方位展示的 3D 视频,仿佛在现实中对其进行环绕拍摄。
在输入方面,SVC 表现出极大的灵活性。它既可以从单张输入图像生成 3D 视频,也支持同时处理多达 32 张图片,从而生成更为丰富、细腻的 3D 景深细节。并且,该模型能生成多种画面比例的视频,无论是常见的方形(1:1)、竖屏(9:16)、横屏(16:9),还是用户自定义的比例,都无需额外训练即可实现。在视频时长上,SVC 可确保生成长达 1000 帧的视频,并在整个运镜过程中保持 3D 一致性,避免视角切换时出现跳帧、卡顿等问题,为用户带来流畅的视觉享受。
经测试,Stable Virtual Camera 在新视角合成(Novel View Synthesis, NVS)基准测试中取得了领先成果,在强调生成能力的大视角 NVS 以及注重时间平滑度的小视角 NVS 方面,均超越了 View Crafter 和 CAT 3D 等同类模型。
不过,作为一款尚处于研究预览阶段的模型,SVC 也存在一定局限性。当输入图像中包含人、动物等动态物体时,生成的视频可能会出现扭曲;对于水面、玻璃、金属反射等具有复杂纹理和难以建模的材质,视频容易产生不稳定的视觉效果;另外,当目标视角与输入图像差距过大,如进行 180° 翻转时,视频画面可能会出现伪影或失真现象。
目前,Stable Virtual Camera 已在非商业许可下开放给研究人员使用。感兴趣的用户可前往 Hugging Face 下载模型权重,在 GitHub 获取相关代码,深入探索其功能与应用潜力。随着技术的不断发展与完善,SVC 有望在影视制作、游戏开发、虚拟展示等领域发挥重要作用,为 3D 内容创作带来更多可能。
The End