
摘要
现有的最先进显著性检测方法高度依赖于基于卷积神经网络(CNN)的架构。与此不同,我们从无卷积的序列到序列视角重新思考该任务,通过建模长距离依赖关系来预测显著性,而这种能力是传统卷积操作无法实现的。具体而言,我们提出了一种基于纯Transformer的新型统一模型——视觉显著性Transformer(Visual Saliency Transformer, VST),用于RGB和RGB-D显著目标检测(SOD)。该模型以图像块(image patches)作为输入,利用Transformer机制在图像块之间传播全局上下文信息。不同于视觉Transformer(ViT)中常用的常规架构,我们引入了多层级标记融合策略,并在Transformer框架下提出一种新的标记上采样方法,以获得高分辨率的检测结果。此外,我们设计了一种基于标记的多任务解码器,通过引入任务相关标记以及一种新颖的“块-任务-注意力”机制,实现显著性与边界检测的联合预测。实验结果表明,所提模型在RGB和RGB-D SOD基准数据集上均优于现有方法。尤为重要的是,本研究不仅为显著性检测领域提供了全新的视角,也为基于Transformer的密集预测模型开辟了一种新的范式。代码已开源,地址为:https://github.com/nnizhang/VST。