HyperAIHyperAI

Command Palette

Search for a command to run...

FutureDepth:学习预测未来以改进视频深度估计

Rajeev Yasarla Manish Kumar Singh Hong Cai Yunxiao Shi Jisoo Jeong Yinhao Zhu Shizhong Han Risheek Garrepalli Fatih Porikli

摘要

本文提出了一种新颖的视频深度估计方法——FutureDepth,该方法通过在训练过程中让模型学习预测未来,从而隐式地利用多帧和运动线索来提高深度估计的准确性。具体而言,我们设计了一个未来预测网络(F-Net),该网络接收多个连续帧的特征,并被训练以迭代方式预测下一时间步的多帧特征。通过这种方式,F-Net 学习了底层的运动和对应关系信息,并将其特征融入到深度解码过程中。此外,为了丰富多帧对应关系线索的学习,我们进一步利用了一个重建网络(R-Net),该网络通过自适应掩码自动编码多帧特征体积进行训练。在推理阶段,F-Net 和 R-Net 用于生成查询,与深度解码器协同工作,并结合最终的精炼网络共同完成任务。我们通过在多个基准数据集上进行广泛的实验验证了 FutureDepth 的性能,这些数据集包括 NYUDv2、KITTI、DDAD 和 Sintel,涵盖了室内、驾驶和开放域场景。实验结果表明,FutureDepth 显著优于基线模型,超越了现有的视频深度估计方法,并达到了新的最先进(SOTA)精度。此外,FutureDepth 比现有的 SOTA 视频深度估计模型更高效,在与单目模型相比时具有相似的延迟。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供