Stable Virtual Camera 图像秒变 3D 视频

一、教程简介
该教程算力资源采用单卡 RTX 4090 。
Stable Virtual Camera(简称 Seva)是由 Stability AI 于 2025 年 3 月推出的一种通用扩散模型,相关论文成果为「Stable Virtual Camera: Generative View Synthesis with Diffusion Models」
Seva 能够根据任意数量的输入视图和目标相机,生成场景的新视图。其设计克服了现有方法在生成大视角变化或时间上平滑样本方面的局限性,同时无需依赖特定的任务配置。该模型的一个显著特点是无需额外的 3D 表示学习,即可保持高一致性的样本生成,从而简化了实际应用中的视角合成流程。此外,Seva 能生成长达半分钟的高质量视频,并实现无缝循环。广泛的基准测试表明,Seva 在不同数据集和设置下的表现优于现有方法。

二、运行步骤
1. 启动容器
启动容器后点击 API 地址即可进入 Web 界面,由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」

2. 基础功能 (Basic)
点击「Basic」界面
通过该界面功能可以实现给定单个图像,根据预设的相机轨迹之一生成视频。

3. 高级功能 (Advanced)
点击「Basic」界面
通过该界面功能可以实现给定任何数量的输入图像,通过关键帧为基础的界面生成以下您选择的任何相机轨迹的视频。

上传图片后,点击 Confirm

点击处理图片,等待图像处理完成后

点击 Add keyframe,添加关键帧

点击生成视频

三、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
