In-2-4D：从两个单视图图像进行中间帧生成以实现四维生成

Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

发布日期: 4/16/2025

摘要

我们提出了一种新的问题，即In-2-4D，旨在从极简输入设置（两张单视角图像捕捉物体的两种不同运动状态）生成4D（即3D + 运动）插值。给定两张表示物体运动起始状态和结束状态的图像，我们的目标是生成并重建该物体的4D运动。我们利用视频插值模型来预测运动，但帧间大范围的运动可能导致模棱两可的解释。为了解决这一问题，我们采用了一种分层方法来识别与输入状态视觉上接近且表现出显著运动的关键帧，然后在这之间生成平滑的片段。对于每个片段，我们使用高斯点绘（Gaussian Splatting）构建关键帧的3D表示。片段内的时序帧指导运动，通过变形场将这些帧转换为动态高斯分布。为了提高时间一致性并优化3D运动，我们将多视角扩散模型中的自注意力机制扩展到时间步长，并应用刚性变换正则化。最后，我们通过插值边界变形场并优化其与引导视频对齐，将独立生成的3D运动段合并，确保平滑且无闪烁的过渡。通过广泛的定性和定量实验以及用户研究，我们展示了该方法及其各组成部分的有效性。项目页面可在https://in-2-4d.github.io/ 查看。

查看论文详情 View Code