
摘要
仅依赖图像级别的标注难以准确描述图像内容的大部分信息,尤其是在呈现复杂现实场景时,其描述范围往往仅涵盖图像中一个较小的子集。虽然在许多分类任务中这一局限性尚可接受,但在训练阶段与测试阶段类别集合存在显著差异的应用场景中,这一问题构成了重大挑战。本文聚焦于少样本学习(few-shot learning)背景下的这一问题,深入探讨其影响。我们通过将输入图像划分为多个图像块(patches),并借助视觉Transformer(Vision Transformer)对这些图像块进行编码,从而在跨图像的局部区域之间建立语义对应关系,且不依赖于图像的具体类别。在推理阶段,通过在线优化方法,基于支持集(support set)动态确定对当前任务最具信息量的图像块嵌入,从而不仅提升了模型性能,还增强了对“图像中何者最为关键”这一问题的视觉可解释性。为克服细粒度标注缺失的问题,我们借鉴了基于掩码图像建模(masked image modeling)的无监督训练最新进展,使模型能够学习数据更通用的统计结构,同时避免因图像级标注带来的负面影响,即所谓的“监督崩溃”(supervision collapse)。实验结果表明,所提出的方法具有很强的竞争力,在四个主流的少样本分类基准上,均在5-shot和1-shot设置下取得了新的最先进性能(state-of-the-art)。