
摘要
少样本分割(Few-shot Segmentation, FSS)旨在仅凭少量标注的支持样本,对新类别进行语义分割。通过对近期进展的重新审视,我们发现当前的FSS框架已与监督分割框架产生显著偏离:在获取深层特征后,FSS方法通常采用复杂的解码器来实现精细的像素级匹配,而监督分割方法则仅使用简单的线性分类头。由于解码器及其匹配流程的复杂性,此类FSS框架的可解释性与可复现性较差,难以被有效遵循。本文重新回归“特征提取器 + 线性分类头”的简洁框架,提出一种新型的特征代理Transformer(Feature-Proxy Transformer, FPTrans)方法。其中,“代理”(proxy)指线性分类头中用于表示某一语义类别的向量。FPTrans在学习具有判别性的特征与代表性代理方面具有两个关键设计:其一,为更高效地利用有限的支持样本,特征提取器采用一种新颖的提示(prompting)策略,使查询特征自网络底层至顶层逐层与支持特征进行交互;其二,FPTrans引入多个局部背景代理(而非单一背景代理),以应对背景区域非均匀的特性,避免遗漏潜在的新类别前景区域。这两个核心思想可自然地融入基于Transformer的视觉骨干网络,并借助Transformer中的提示机制实现。在学习得到特征与代理后,FPTrans直接通过计算其余弦相似度完成分割。尽管整体框架简洁明了,实验结果表明,FPTrans在多个基准数据集上取得了与当前最先进的基于解码器的方法相媲美的少样本分割精度,验证了该简洁框架的有效性与竞争力。