17 天前
自适应上下文网络用于场景解析
Jun Fu, Jing Liu, Yuhang Wang, Yong Li, Yongjun Bao, Jinhui Tang, Hanqing Lu

摘要
近期的研究尝试通过探索不同层次的上下文信息来提升场景解析性能,通常采用精心设计的卷积网络,对所有像素均匀地利用有用的上下文信息。然而,在本文中,我们发现图像中不同像素或区域对上下文的需求是异质的。基于这一观察,我们提出了一种自适应上下文网络(Adaptive Context Network, ACNet),通过根据每个像素的特定需求,竞争性地融合全局上下文与局部上下文,从而捕获像素感知的上下文特征。具体而言,对于给定像素,其全局上下文需求通过全局特征与局部特征之间的相似性来衡量,而该相似性的倒数则用于表征局部上下文需求。我们分别设计了全局上下文模块和局部上下文模块,以建模这两种需求度量,进而生成自适应的上下文特征。此外,我们将多个此类模块组合,构建出位于网络不同层级的多个自适应上下文模块,实现从粗到细的特征优化。最后,通过在四个公开数据集(Cityscapes、ADE20K、PASCAL Context 和 COCO Stuff)上的全面实验评估,验证了所提 ACNet 的有效性,并在所有数据集上均取得了新的最先进(SOTA)性能。