2 个月前

OCNet:面向对象上下文网络用于场景解析

Yuhui Yuan; Lang Huang; Jianyuan Guo; Chao Zhang; Xilin Chen; Jingdong Wang
OCNet:面向对象上下文网络用于场景解析
摘要

在本文中,我们提出了一种新的上下文聚合方案,称为\emph{对象上下文}(object context),该方案着重于增强对象信息的作用。鉴于每个像素的类别继承自其所属的对象,我们将图像中每个像素的对象上下文定义为与其属于同一类别的所有像素的集合。我们使用一个二值关系矩阵来表示所有像素之间的关系,其中值为1表示所选的两个像素属于同一类别,而值为0则表示不属于同一类别。为了替代二值关系矩阵,我们建议使用一个密集关系矩阵。密集关系矩阵能够突出对象信息的贡献,因为其关系得分在对象像素上往往比其他像素更高。考虑到密集关系矩阵估计需要与输入大小呈二次增长的计算开销和内存消耗,我们提出了一种高效的交错稀疏自注意力机制来通过两个稀疏关系矩阵的组合建模任意两个像素之间的密集关系。为了捕捉更丰富的上下文信息,我们进一步将提出的交错稀疏自注意力机制与传统的多尺度上下文方案相结合,包括金字塔池化(pyramid pooling)\citep{zhao2017pyramid}和空洞空间金字塔池化(atrous spatial pyramid pooling)\citep{chen2018deeplab}。我们在五个具有挑战性的基准数据集上进行了实验验证,展示了我们的方法的优势和竞争力,这些数据集包括:Cityscapes、ADE20K、LIP、PASCAL-Context 和 COCO-Stuff。