
摘要
全局与局部上下文信息在显著目标检测(Salient Object Detection, SOD)中对预测结果的完整性具有重要影响。然而,现有方法在生成完整且具备精细细节的预测结果方面仍面临挑战。传统方法主要存在两个关键问题:其一,针对全局上下文建模,基于高层卷积神经网络(CNN)的编码器特征难以有效捕捉长距离依赖关系,导致预测结果不完整;其二,为使真实标签(ground truth)与预测结果尺寸匹配而进行下采样时,由于插值或池化操作导致真实标签中的细节信息丢失,从而引入误差。针对上述问题,本文提出一种基于Transformer的网络架构,并设计了一个监督任务,使分支网络显式学习全局上下文信息。此外,我们引入超分辨率(Super-Resolution, SR)中的Pixel Shuffle操作,将预测结果重构至原始真实标签的尺寸,而非采用传统的反向上采样方式,从而完整保留真实标签中的细节信息。同时,我们设计了一个两阶段的上下文精炼模块(Context Refinement Module, CRM),用于融合全局上下文信息,并自动定位与优化预测结果中的局部细节。所提出的网络能够基于生成的全局与局部上下文信息实现自我引导与自我修正,因此命名为自精炼Transformer(Self-Refined Transformer, SelfReformer)。在五个基准数据集上的大量实验与评估结果表明,该方法性能显著优于现有方法,达到了当前最先进的水平。