
摘要
在视觉识别任务中,少样本学习(few-shot learning)要求模型能够仅凭少量支持样本就学会识别新的物体类别。随着深度学习的发展,该方法近年来重新受到关注,主要集中在图像分类领域。然而,少样本语义分割(few-shot semantic segmentation)仍是尚未充分探索的研究方向。目前少数近期进展通常局限于单类别少样本分割任务。本文首次提出一种新颖的多路(多类)编码与解码架构,能够有效融合多尺度查询信息与多类别支持信息,生成统一的查询-支持嵌入表示。在此嵌入基础上,直接实现多类别语义分割的解码。为提升特征融合效果,该架构进一步引入一种多层次注意力机制,包含用于支持特征调制的注意力模块以及用于多尺度特征融合的注意力模块。此外,为进一步优化嵌入空间的学习能力,本文还设计了一种额外的像素级度量学习模块,基于输入图像的像素级嵌入,采用三元组损失(triplet loss)进行优化。在标准基准数据集PASCAL-5i和COCO-20i上的大量实验表明,所提方法在少样本语义分割任务上显著优于现有最先进方法。