
摘要
单目深度估计是一项具有挑战性的任务,旨在从给定的单张RGB图像中预测对应的深度图。近年来,深度学习模型通过学习RGB图像域与深度域之间深层特征的对齐关系,实现了从图像中预测深度。本文提出一种新颖的方法——结构感知记忆网络(Structure-Attentioned Memory Network, SAMN),通过考虑域适应过程中存在的共性结构规律(如重复性结构模式、平面表面、对称性等),更有效地实现跨域特征迁移,以提升单目深度估计的性能。为此,我们引入了一种新型的结构导向记忆模块(Structure-Oriented Memory, SOM),用于学习并记忆RGB图像域与深度域之间的结构特异性信息。具体而言,在SOM模块中,我们设计了可记忆滤波器库(Memorable Bank of Filters, MBF)单元,用于学习一组能够记忆结构感知图像-深度残差模式的滤波器;同时,还设计了注意力引导控制器(Attention Guided Controller, AGC)单元,根据输入图像特征查询动态调控MBF中的滤波器选择。在给定图像特征查询的情况下,经过训练的SOM模块能够自适应地选择最优的定制化滤波器,实现图像与深度域之间具有最优结构差异的跨域特征迁移。综上所述,本文针对结构特异性域适应这一关键挑战,提出了一种新型的端到端多尺度可记忆网络,用于单目深度估计。实验结果表明,所提出的模型在具有挑战性的KITTI和NYU Depth V2基准测试上,相较于现有的监督式单目深度估计方法,展现出更优的性能。