摘要
本文提出了一种双关系感知注意力网络(Dual Relation-aware Attention Network, DRANet),用于解决场景分割任务。高效利用上下文信息对于像素级识别至关重要。为应对这一挑战,我们基于关系感知注意力机制,自适应地捕捉上下文信息。具体而言,在空洞全卷积网络(Dilated Fully Convolutional Network, FCN)的顶层引入了两种注意力模块,分别建模空间维度与通道维度上的上下文依赖关系。在这些注意力模块中,我们采用自注意力机制,以建模任意两个像素或通道之间的语义关联。每个像素或通道可根据其与其他像素或通道的相关性,自适应地聚合来自所有像素或通道的上下文信息。为降低上述成对关联计算带来的高计算与内存开销,我们进一步设计了两种紧凑型注意力模块。在这些紧凑型模块中,每个像素或通道仅与少量聚合中心建立关联,并基于这些中心实现相应的上下文聚合。与此同时,我们引入了一种跨层级门控解码器,以选择性增强空间细节,从而提升网络的整体性能。通过大量实验验证,所提出的网络在四个具有挑战性的场景分割数据集——Cityscapes、ADE20K、PASCAL Context 和 COCO Stuff 上均取得了新的最先进(state-of-the-art)分割性能。特别地,在 Cityscapes 测试集上,仅使用标准标注数据,未引入额外粗粒度标注数据,即实现了 82.9% 的平均交并比(Mean IoU)得分。