
摘要
少样本语义分割(Few-shot Semantic Segmentation, FSS)旨在对查询图像中未见类别进行分割,仅依赖少量标注样本(称为支持图像)作为先验信息。FSS的一个显著特征是查询图像与支持图像之间在空间上存在不一致性,例如纹理或外观差异。这种不一致性极大地挑战了现有方法的泛化能力,要求模型能够有效建模查询图像与支持样本之间的依赖关系。目前大多数方法将支持图像的特征抽象为原型向量(prototype vectors),并通过余弦相似度或特征拼接的方式实现与查询特征的交互。然而,这种简单的交互机制难以充分捕捉查询特征中的空间细节。为缓解这一局限,部分方法尝试通过Transformer的注意力机制,计算查询与支持特征之间所有像素级别的相关性,以利用完整的像素级支持信息。但这类方法在计算上存在显著负担,主要源于查询与支持特征所有像素之间点积注意力的高复杂度。针对上述问题,本文提出一种基于Transformer的简洁而高效的新框架——ProtoFormer,旨在充分捕捉查询特征中的空间细节。该方法将支持图像中目标类别的抽象原型视为查询(Query),而将查询图像的特征作为键(Key)和值(Value)嵌入,输入至Transformer解码器中。通过这种设计,模型能够更精准地建模空间上下文信息,并聚焦于查询图像中目标类别的语义特征。Transformer模块的输出可被理解为具有语义感知能力的动态卷积核,用于从增强后的查询特征中滤出最终的分割掩码。在PASCAL-$5^{i}$和COCO-$20^{i}$两个基准数据集上的大量实验表明,所提出的ProtoFormer显著超越现有最先进方法,实现了性能的显著提升。