
摘要
任意样本图像分类(Any-shot image classification)能够在仅有少数甚至零样本的情况下识别新类别。在零样本学习任务中,视觉属性已被证明发挥着重要作用,而在少样本学习中,属性的作用尚未得到充分探索。为了更好地将基于属性的知识从已知类别迁移到未知类别,我们认为具有集成属性定位能力的图像表示对于任意样本图像分类任务(即零样本和少样本图像分类)是有益的。为此,我们提出了一种新的表征学习框架,该框架仅使用类级别的属性联合学习判别性的全局和局部特征。视觉-语义嵌入层负责学习全局特征,而局部特征则通过一个同时回归和解相关属性的属性原型网络来学习。此外,我们引入了一个放大模块(zoom-in module),用于定位并裁剪出信息丰富的区域,以促使网络显式地学习这些信息特征。实验结果表明,我们的局部增强图像表示在具有挑战性的基准数据集上达到了新的最先进水平,包括CUB、AWA2和SUN。作为额外的优势,我们的模型能够指出图像中属性的视觉证据,证实了我们图像表示的改进属性定位能力。我们通过与真实部分注释进行定量评估、可视化进行定性评估以及精心设计的用户研究来验证这一属性定位能力。