16 天前

SemAttNet:面向基于注意力机制的语义感知引导深度补全

Danish Nazir, Marcus Liwicki, Didier Stricker, Muhammad Zeshan Afzal
SemAttNet:面向基于注意力机制的语义感知引导深度补全
摘要

深度补全任务旨在从稀疏深度图和RGB图像中恢复出稠密的深度图。近年来的方法主要利用彩色图像作为引导信息,以恢复无效像素处的深度值。然而,仅依靠彩色图像难以提供场景所需的充分语义理解,因此在RGB图像中出现剧烈光照变化(如阴影)时,深度补全性能会显著下降。为此,本文提出一种新颖的三分支主干网络结构,包含颜色引导分支、语义引导分支和深度引导分支。具体而言,颜色引导分支以稀疏深度图和RGB图像为输入,生成包含场景颜色线索(如物体边界)的彩色深度图。该分支预测的稠密深度图,连同语义图像和稀疏深度图,共同作为输入传递至语义引导分支,用于估计语义深度。深度引导分支则综合输入的稀疏深度、彩色深度与语义深度,生成最终的稠密深度图。随后,将彩色深度、语义深度与引导深度通过自适应融合机制进行融合,输出本文提出的三分支主干网络的最终结果。此外,我们进一步设计了语义感知的多模态注意力融合模块(Semantic-aware Multi-modal Attention Fusion Block, SAMMAFB),用于在三个分支之间实现更有效的特征融合。为进一步优化稠密深度图的质量,我们采用CSPN++结合空洞卷积(Atrous Convolutions)对主干网络输出的深度图进行精细化优化。大量实验结果表明,在提交时,本模型在KITTI深度补全基准测试中达到了当前最优(state-of-the-art)性能。

SemAttNet:面向基于注意力机制的语义感知引导深度补全 | 最新论文 | HyperAI超神经