
摘要
本文针对以稀疏视角视频为输入的人体高保真视图合成挑战进行了研究。以往的方法通过利用4D扩散模型生成新视角的视频来解决观测不足的问题。然而,这些模型生成的视频往往缺乏时空一致性,从而降低了视图合成的质量。在本文中,我们提出了一种新颖的滑动迭代去噪过程,以增强4D扩散模型的时空一致性。具体而言,我们在一个潜在网格中定义了每个潜在变量,该变量编码了特定视角和时间戳下的图像、相机姿态和人体姿态,然后使用滑动窗口沿空间和时间维度交替去噪潜在网格,最后从相应的去噪潜在变量中解码出目标视角的视频。通过迭代滑动,信息在整个潜在网格中充分流动,使得扩散模型获得了较大的感受野,从而增强了输出的4D一致性,并且使GPU内存消耗保持在可接受范围内。我们在DNA-Rendering和ActorsHQ数据集上的实验表明,我们的方法能够合成高质量且一致的新视角视频,并显著优于现有方法。请访问我们的项目页面查看交互式演示和视频结果:https://diffuman4d.github.io/ 。