6 个月前

摘要

与人类快速学习能力相似，少样本学习（few-shot learning）使视觉系统能够仅通过少量样本便理解新概念。现有的主流方法大多基于元学习（meta-learning），但其研究对象通常局限于图像中仅包含单一视觉目标的场景。然而，在实际图像中，复杂背景与多个物体共存的情况普遍存在，这使得现有方法难以有效推进少样本目标检测与分割任务的发展。针对这一挑战，本文提出一种灵活且通用的方法，以实现少样本目标检测与分割。我们对 Faster / Mask R-CNN 进行扩展，提出在区域感兴趣（Region-of-Interest, RoI）特征层面进行元学习，而非传统的整图特征学习。这一简洁的设计思路有效解耦了与背景混合的多目标信息，无需引入复杂模块或额外结构，即可使 Faster / Mask R-CNN 转变为具备元学习能力的模型，从而完成少样本任务。具体而言，我们设计了一种预测头重构网络（Predictor-head Remodeling Network, PRN），其主干网络与 Faster / Mask R-CNN 共享。PRN 接收包含少样本目标及其边界框或掩码的图像，推断出对应类别的注意力向量（class attentive vectors）。这些向量对 RoI 特征施加通道维度上的软注意力机制，动态重构 R-CNN 的预测头，使其能够检测或分割与该注意力向量所代表类别一致的新目标。在实验中，所提出的 Meta R-CNN 在少样本目标检测任务上达到了当前最优性能，并显著提升了 Mask R-CNN 在少样本目标分割任务上的表现，展现出强大的泛化能力与实用性。

源 PDF