2 个月前

FutureDepth:学习预测未来以改进视频深度估计

Yasarla, Rajeev ; Singh, Manish Kumar ; Cai, Hong ; Shi, Yunxiao ; Jeong, Jisoo ; Zhu, Yinhao ; Han, Shizhong ; Garrepalli, Risheek ; Porikli, Fatih
FutureDepth:学习预测未来以改进视频深度估计
摘要

本文提出了一种新颖的视频深度估计方法——FutureDepth,该方法通过在训练过程中让模型学习预测未来,从而隐式地利用多帧和运动线索来提高深度估计的准确性。具体而言,我们设计了一个未来预测网络(F-Net),该网络接收多个连续帧的特征,并被训练以迭代方式预测下一时间步的多帧特征。通过这种方式,F-Net 学习了底层的运动和对应关系信息,并将其特征融入到深度解码过程中。此外,为了丰富多帧对应关系线索的学习,我们进一步利用了一个重建网络(R-Net),该网络通过自适应掩码自动编码多帧特征体积进行训练。在推理阶段,F-Net 和 R-Net 用于生成查询,与深度解码器协同工作,并结合最终的精炼网络共同完成任务。我们通过在多个基准数据集上进行广泛的实验验证了 FutureDepth 的性能,这些数据集包括 NYUDv2、KITTI、DDAD 和 Sintel,涵盖了室内、驾驶和开放域场景。实验结果表明,FutureDepth 显著优于基线模型,超越了现有的视频深度估计方法,并达到了新的最先进(SOTA)精度。此外,FutureDepth 比现有的 SOTA 视频深度估计模型更高效,在与单目模型相比时具有相似的延迟。

FutureDepth:学习预测未来以改进视频深度估计 | 最新论文 | HyperAI超神经