7 天前
基于4D卷积Swin Transformer的代价聚合用于少样本分割
Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim

摘要
本文提出了一种新颖的代价聚合网络——基于Transformer的体积分组网络(Volumetric Aggregation with Transformers, VAT),用于少样本分割任务。Transformer通过在全局感受野上的自注意力机制,能够有效提升相关性图的聚合效果。然而,将相关性图进行分块(tokenization)以适配Transformer处理时,可能带来负面影响:由于分块边界处的不连续性,导致靠近分块边缘的局部上下文信息丢失,同时削弱了归纳偏置(inductive bias)。为解决这一问题,本文提出一种四维卷积型Swin Transformer(4D Convolutional Swin Transformer),其在高维Swin Transformer之前引入一系列小卷积核卷积操作,为所有像素注入局部上下文信息,并引入卷积神经网络的归纳偏置。此外,通过在金字塔结构中应用Transformer进行多层级聚合,实现粗粒度到细粒度的层次化引导,进一步提升聚合性能。在后续解码器中,利用查询图像的外观嵌入(appearance embedding)对Transformer输出中的噪声进行有效过滤。实验结果表明,该模型在所有标准少样本分割基准测试中均达到了新的最先进水平。同时,研究还证明,VAT在语义对应(semantic correspondence)任务中也取得了当前最优性能,凸显了代价聚合在该任务中的核心作用。