
摘要
多任务密集场景理解是一个蓬勃发展的研究领域,需要对一系列相关任务进行像素级预测的同时实现感知和推理。现有的大多数工作由于大量使用卷积操作,在局部建模方面遇到了严重的限制,而学习在全局空间位置和多任务上下文中进行交互和推理对于解决这一问题至关重要。本文提出了一种新颖的端到端倒金字塔多任务变压器(InvPT),以统一的框架同时对空间位置和多个任务进行建模。据我们所知,这是首次探索为场景理解中的多任务密集预测设计变压器结构的工作。此外,广泛的研究表明,更高的空间分辨率对密集预测非常有益,但现有变压器在高分辨率下深入学习面临巨大挑战,因为大空间尺寸会导致复杂度急剧增加。InvPT 引入了一个高效的 UP-Transformer 模块,在逐渐增高的分辨率下学习多任务特征交互,该模块还结合了有效的自注意力消息传递和多尺度特征聚合,以生成高分辨率的任务特定预测。我们的方法分别在 NYUD-v2 和 PASCAL-Context 数据集上实现了卓越的多任务性能,并显著优于之前的最先进方法。代码可在 https://github.com/prismformore/InvPT 获取。