2 个月前

用于场景分割的双注意力网络

Jun Fu; Jing Liu; Haijie Tian; Yong Li; Yongjun Bao; Zhiwei Fang; Hanqing Lu

摘要

本文针对场景分割任务，通过自注意力机制捕捉丰富的上下文依赖关系。与以往通过多尺度特征融合来捕捉上下文的方法不同，我们提出了一种双注意力网络（Dual Attention Networks，简称DANet），以自适应地将局部特征与其全局依赖关系进行整合。具体而言，我们在传统的空洞全卷积网络（dilated FCN）基础上添加了两种类型的注意力模块，分别在空间维度和通道维度建模语义互依赖关系。位置注意力模块通过所有位置特征的加权和选择性地聚合每个位置的特征，使得相似的特征无论其距离远近都能相互关联。同时，通道注意力模块通过整合所有通道图之间的相关特征，选择性地强调互依赖的通道图。我们将两个注意力模块的输出相加，进一步提升特征表示的质量，从而获得更精确的分割结果。我们在三个具有挑战性的场景分割数据集上实现了最新的分割性能：Cityscapes、PASCAL Context 和 COCO Stuff 数据集。特别是，在不使用粗略数据的情况下，我们在Cityscapes测试集上达到了81.5%的平均交并比（Mean IoU）得分。我们已将代码和训练好的模型公开发布在 https://github.com/junfu1115/DANet 上。