2 个月前

MultiGrain:一种统一的图像嵌入方法用于类别和实例

Maxim Berman; Hervé Jégou; Andrea Vedaldi; Iasonas Kokkinos; Matthijs Douze
MultiGrain:一种统一的图像嵌入方法用于类别和实例
摘要

MultiGrain 是一种网络架构,能够生成适用于图像分类和特定对象检索的紧凑向量表示。该架构基于标准的分类主干网络构建。网络顶部生成的嵌入包含粗粒度和细粒度信息,使得图像可以根据对象类别、特定对象或其是否为失真副本进行识别。我们的联合训练方法非常简单:我们最小化一个用于分类的交叉熵损失以及一个用于确定两幅图像在数据增强范围内是否相同的排序损失,而无需额外的标签。MultiGrain 的关键组件是一个池化层,该层利用高分辨率图像的优势,即使网络是在较低分辨率下训练的。当这些学习到的嵌入被输入线性分类器时,它们提供了最先进的分类准确性。例如,我们在 ImageNet 上使用 ResNet-50 学习到的嵌入达到了 79.4% 的 top-1 准确率,比 AutoAugment 方法绝对提高了 1.8%。在中等分辨率下的图像检索任务中,与余弦相似度相比,这些嵌入的表现与当前最先进方法相当。