
摘要
检索增强模型在自然语言处理(NLP)任务中取得显著成功后,正日益受到计算机视觉领域的关注。其核心目标是通过从外部记忆库中检索与视觉输入相似的样本,来增强模型的识别能力。在本工作中,我们提出一种基于注意力机制的记忆模块,该模块能够自动学习记忆库中每个检索样本的重要性。与现有方法相比,我们的方法有效抑制了无关检索样本的干扰,仅保留对当前查询任务具有实际帮助的样本。此外,我们系统地研究了构建记忆数据集的多种策略。实验结果表明,使用包含10亿对图像-文本数据的大规模记忆数据集能显著提升性能,并验证了不同记忆表示方式的有效性。我们在三个不同的分类任务上评估了所提方法:长尾识别、含噪声标签学习以及细粒度分类。实验结果表明,该方法在ImageNet-LT、Places-LT和Webvision数据集上均取得了当前最优的分类准确率,达到了领先水平。