
摘要
我们提出一种新颖的代价聚合网络,命名为基于Transformer的体积分量聚合(Volumetric Aggregation with Transformers, VAT),用于解决少样本分割任务。该方法结合卷积与Transformer结构,高效处理查询图像与支持图像之间的高维相关性图。具体而言,我们设计了一种编码器,包含两个核心模块:体积分量嵌入模块(volume embedding module)和体积分量Transformer模块(volumetric transformer module)。前者不仅将相关性图映射至更易处理的低维空间,还引入了卷积神经网络的归纳偏置;后者则用于实现高效的代价聚合。该编码器采用金字塔结构,使粗粒度层级的聚合结果能够指导细粒度层级的聚合过程,同时促进学习互补的匹配得分。随后,我们将编码器输出与投影后的特征图一同输入至亲和力感知解码器(affinity-aware decoder),以引导分割过程。通过整合上述组件,我们在多个标准少样本分割基准上进行了实验,结果表明所提方法显著优于现有方法,并在所有标准评测中达到新的最先进性能(state-of-the-art)。此外,我们还发现,尽管本方法并非专为语义对应任务设计,但在标准语义对应任务的基准上同样取得了当前最优的性能表现。为验证网络架构设计的合理性,我们进行了详尽的消融实验。相关训练权重与代码已公开,可访问:https://seokju-cho.github.io/VAT/。