
摘要
本文针对语义分割问题,重点研究上下文聚合策略。我们的动机是:一个像素的类别标签,即其所属于物体的类别。为此,我们提出一种简单而有效的方法——对象上下文表征(object-contextual representations),通过利用对应物体类别的表征来刻画每个像素。具体而言,首先在真实标注分割的监督下学习物体区域;其次,通过聚合位于该物体区域内的所有像素的表征,计算出该物体区域的表征;最后,计算每个像素与每个物体区域之间的表征相似性,并将每个像素的表征通过加权聚合所有物体区域表征的方式进行增强,其中权重由像素与各物体区域之间的关系决定。我们通过实验证明,所提出的方法在多个具有挑战性的语义分割基准数据集上均取得了具有竞争力的性能,包括Cityscapes、ADE20K、LIP、PASCAL-Context以及COCO-Stuff。截至提交时,我们的参赛方案“HRNet + OCR + SegFix”在Cityscapes排行榜上位列第一。相关代码已开源,地址为:https://git.io/openseg 和 https://git.io/HRNet.OCR。此外,我们进一步基于Transformer编码器-解码器框架对对象上下文表征机制进行了重新表述,具体细节见第3.3节。