HoloTime:控制视频扩散模型以生成全景4D场景
Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan
发布日期: 5/13/2025

摘要
扩散模型的迅速发展有望革新虚拟现实(VR)和增强现实(AR)技术的应用,这些技术通常需要场景级别的4D资产以提升用户体验。然而,现有的扩散模型主要集中在建模静态3D场景或对象级别的动态,限制了其提供真正沉浸式体验的能力。为了解决这一问题,我们提出了一种名为HoloTime的框架,该框架集成了视频扩散模型,可以从单一提示或参考图像生成全景视频,并结合一种360度4D场景重建方法,将生成的全景视频无缝转换为4D资产,从而实现用户完全沉浸式的4D体验。具体而言,为了使视频扩散模型能够生成高保真的全景视频,我们引入了360World数据集,这是首个全面收集适合下游4D场景重建任务的全景视频的数据集。基于这一精选数据集,我们提出了Panoramic Animator(全景动画师),这是一种两阶段的图像到视频扩散模型,可以将全景图像转换为高质量的全景视频。接下来,我们介绍了Panoramic Space-Time Reconstruction(全景时空重建),该方法利用时空深度估计技术将生成的全景视频转换为4D点云,并通过优化整体4D高斯点绘表示来重建在空间和时间上一致的4D场景。为了验证我们方法的有效性,我们与现有方法进行了比较分析,结果显示我们的方法在全景视频生成和4D场景重建方面均具有优越性。这表明我们的方法能够创建更加引人入胜和逼真的沉浸式环境,从而提升VR和AR应用中的用户体验。