6 个月前

摘要

通用少样本语义分割（Generalized Few-Shot Semantic Segmentation, GFSS）旨在同时区分基础类别和新类别像素与背景，其前提是有充足的基础类别数据以及少量新类别的样本。典型的GFSS方法包含两个训练阶段：基础类别学习阶段与新类别更新阶段。然而，这种独立的更新过程往往会对已充分学习的特征造成破坏，导致基础类别性能下降。本文提出一种新思路——正交原型投影（Projection onto Orthogonal Prototypes, POP），该方法能够在不损害基础类别性能的前提下，更新特征以识别新类别。POP构建一组正交原型，每个原型代表一个语义类别，并基于特征在相应原型上的投影结果，独立地进行各类别的预测。技术上，POP首先在基础数据上学习原型，随后将原型集合扩展至新类别。POP所引入的正交约束促使学习到的原型之间保持正交性，从而在向新原型泛化时有效缓解对基础类别特征的负面影响。此外，本文利用特征投影的残差作为背景表示，以动态适应语义漂移现象（即在更新阶段，背景不再包含新类别像素）。在两个基准数据集上的大量实验表明，所提出的POP方法在新类别上实现了显著更优的性能，同时对基础类别的准确率影响极小。特别地，在PASCAL-5i数据集的5-shot场景下，POP整体mIoU较当前最优的微调方法提升了3.93%。

源 PDF 查看代码