16 天前

MAMo:利用记忆与注意力机制进行单目视频深度估计

Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli
MAMo:利用记忆与注意力机制进行单目视频深度估计
摘要

我们提出MAMo,一种用于单目视频深度估计的新颖记忆与注意力框架。MAMo能够将任意单图像深度估计网络增强并升级为视频深度估计模型,使其能够利用时序信息,从而预测更精确的深度图。在MAMo中,我们引入了记忆模块,随着模型逐帧处理视频,该模块辅助深度预测过程。具体而言,记忆模块存储了先前时间步的视觉特征和位移特征(visual and displacement tokens),使得深度网络在预测当前帧深度时,能够跨时间参考历史相关特征。我们设计了一种新颖的记忆更新机制,持续优化记忆内容,保留与过去和当前视觉信息均相关的关键特征。在处理记忆特征时,我们采用基于注意力的方法:首先通过自注意力模块学习视觉记忆特征与位移记忆特征之间的时空关联;随后,利用交叉注意力将自注意力输出的特征与当前帧的视觉特征进行融合。最终,融合后的交叉注意力特征被送入解码器,用于预测当前帧的深度图。在多个基准数据集(包括KITTI、NYU-Depth V2和DDAD)上的大量实验表明,MAMo能够持续提升单目深度估计网络的性能,并达到新的最先进(SOTA)精度水平。值得注意的是,相较于现有的基于代价体(cost-volume)的视频深度估计SOTA模型,我们的MAMo在实现更高精度的同时,还表现出更低的延迟,展现出优异的实时性能。

MAMo:利用记忆与注意力机制进行单目视频深度估计 | 最新论文 | HyperAI超神经