11 天前

无需掩码注意力的Transformer用于3D实例分割

Xin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu, Jiaya Jia
无需掩码注意力的Transformer用于3D实例分割
摘要

近年来,基于Transformer的方法在3D实例分割任务中占据主导地位,其中通常包含掩码注意力(mask attention)机制。具体而言,对象查询(object queries)在首次交叉注意力(cross-attention)中由初始实例掩码引导,并在此后通过类似的方式进行迭代优化。然而,我们观察到,掩码注意力的流水线设计往往导致收敛速度较慢,其根源在于初始实例掩码的召回率较低。为此,我们摒弃了传统的掩码注意力结构,转而引入一个辅助的中心点回归(center regression)任务。通过中心点回归,我们有效缓解了低召回率的问题,并在交叉注意力中引入位置先验(positional prior)以实现更精准的特征交互。为实现这一目标,我们提出了一系列具备位置感知能力的设计。首先,我们学习三维空间中位置的分布作为初始位置查询(position queries),这些查询在三维空间中密集分布,能够以高召回率有效捕捉场景中的物体。此外,我们设计了相对位置编码(relative position encoding)用于交叉注意力,并引入迭代优化机制以进一步提升位置查询的准确性。实验结果表明,所提出的方法相比现有方法收敛速度提升4倍,在ScanNetv2 3D实例分割基准上取得了新的最先进性能,并在多个不同数据集上均展现出卓越的泛化能力。代码与模型已开源,地址为:https://github.com/dvlab-research/Mask-Attention-Free-Transformer。