11 天前

TransDSSL:基于Transformer的自监督深度估计

{Yukyung Choi, Soomnim Hwang, Namil Kim, Jeongmin Shin, Daechan Han}
摘要

近年来,Transformer架构因其能够有效建模图像中长距离空间依赖关系,在多种计算机视觉任务中得到广泛应用,并展现出令人瞩目的性能。然而,将Transformer应用于自监督深度估计的研究仍十分有限。在自监督深度学习中用Transformer替代传统CNN架构时,我们面临若干挑战,例如在与Transformer结合时,多尺度光度损失函数表现不稳定,且模型捕捉局部细节的能力不足。针对上述问题,本文提出一种基于注意力机制的解码模块——像素级跳跃注意力(Pixel-Wise Skip Attention, PWSA),该模块在保留Transformer所提取的全局上下文信息的同时,显著增强特征图中的精细细节表达。此外,我们引入单尺度光度损失与自蒸馏损失相结合的训练策略,通过提供更准确的监督信号,有效缓解了Transformer训练过程中的不稳定性。实验结果表明,所提出的模型在需要兼顾全局上下文与局部细节的大尺度物体及细长结构的深度预测任务中均能实现高精度估计。在KITTI与DDAD两个基准数据集上,本方法在自监督单目深度估计领域达到了当前最优的性能水平。

TransDSSL:基于Transformer的自监督深度估计 | 最新论文 | HyperAI超神经