密集跨查询与支持注意力加权掩码聚合用于少样本分割

少样本语义分割(Few-shot Semantic Segmentation, FSS)研究近年来受到广泛关注,其目标是在仅提供少量目标类别标注的支持图像(support images)的情况下,对查询图像(query image)中的目标对象进行精准分割。该任务的关键在于充分挖掘支持图像中的信息,通过捕捉查询图像与支持图像之间细粒度的关联关系实现有效分割。然而,现有大多数方法通常将支持图像信息压缩为少数类别级原型(class-wise prototypes),或仅在像素级别利用部分支持信息(例如仅前景区域),导致不可避免的信息损失。本文提出了一种新型方法——密集像素级跨查询与支持注意力加权掩码聚合(Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation, DCAMA)。该方法通过多层级像素级的配对查询与支持特征相关性,充分挖掘支持图像中前景与背景的全部信息。在Transformer架构中,DCAMA采用缩放点积注意力机制,将每个查询像素视为一个“token”,计算其与所有支持像素之间的相似度,并将查询像素的分割标签预测为所有支持像素标签的加权聚合结果——权重即为对应相似度。这一独特建模方式使得DCAMA具备良好的表达能力。基于DCAMA的这一特性,我们进一步设计了一种高效且有效的单次前向推理机制,用于实现n-shot分割。该机制一次性整合所有支持图像的像素信息,完成掩码聚合,显著提升了推理效率。在PASCAL-5i、COCO-20i和FSS-1000等标准FSS基准上的实验结果表明,DCAMA显著超越了现有最优方法,分别在1-shot mIoU指标上取得了3.1%、9.7%和3.6%的绝对性能提升。消融实验进一步验证了DCAMA各设计组件的有效性与合理性。