2 个月前
期望最大化注意力网络在语义分割中的应用
Xia Li; Zhisheng Zhong; Jianlong Wu; Yibo Yang; Zhouchen Lin; Hong Liu

摘要
自注意力机制已被广泛应用于各种任务中。它通过计算所有位置特征的加权和来表示每个位置,因此能够捕捉计算机视觉任务中的长距离关系。然而,该机制在计算上较为耗时,因为注意力图是相对于所有其他位置进行计算的。在本文中,我们将注意力机制公式化为期望最大化(Expectation-Maximization, EM)的形式,并迭代估计一个更为紧凑的基础集,以用于计算注意力图。通过对这些基础进行加权求和,得到的表示矩阵具有低秩特性,并能减少输入中的噪声信息。所提出的期望最大化注意力(EMA)模块对输入的变化具有鲁棒性,并且在内存和计算方面也更加友好。此外,我们建立了基础维护和归一化方法以稳定其训练过程。我们在包括PASCAL VOC、PASCAL Context和COCO Stuff在内的多个流行语义分割基准数据集上进行了广泛的实验,并创下了新的记录。