9 天前

通过多平面图像实现动态场景的3D物体运动估计以进行时序视图合成

Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan
通过多平面图像实现动态场景的3D物体运动估计以进行时序视图合成
摘要

在计算能力有限的设备上实现高帧率视频的图形渲染,可通过周期性预测未来帧来提升虚拟现实应用中的用户体验。这一问题可通过时间视图合成(Temporal View Synthesis, TVS)进行研究,其目标是在已知先前帧及前后帧的头部姿态条件下,预测视频的下一帧。本文针对动态场景下的TVS问题展开研究,其中用户与物体均处于运动状态。为此,我们设计了一种框架,将运动分解为用户运动与物体运动两部分,从而有效利用已知的用户运动信息进行未来帧预测。具体而言,我们通过分离并估计过去帧中物体的三维运动,再进行外推,以预测物体的运动轨迹。为表示场景的三维结构,我们采用多平面图像(Multi-Plane Images, MPI)作为场景的三维表达方式,并将物体运动建模为MPI表示中对应点之间的三维位移。为应对MPI中固有的稀疏性问题,在运动估计过程中引入部分卷积(partial convolutions)与掩码相关层(masked correlation layers),以更准确地估计对应点。随后,将预测得到的物体运动与给定的用户或相机运动相结合,生成下一帧图像。为进一步修复因相机与物体运动导致的遮挡区域(disocclusion regions),我们设计了一个去遮挡填充模块(disocclusion infilling module),用于合成新暴露的区域。为支持该方法的训练与评估,我们构建了一个全新的动态场景TVS合成数据集,包含800段全高清分辨率的视频。通过在该数据集及MPI Sintel数据集上的实验验证,结果表明,本方法在各项指标上均优于现有文献中的所有对比方法,展现出显著的性能优势。

通过多平面图像实现动态场景的3D物体运动估计以进行时序视图合成 | 最新论文 | HyperAI超神经