9 天前

长尾视觉识别的检索增强分类

Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel
长尾视觉识别的检索增强分类
摘要

我们提出了一种名为检索增强分类(Retrieval Augmented Classification, RAC)的通用方法,用于在标准图像分类流程中引入显式的检索模块,以增强模型性能。RAC架构由一个标准的主图像编码器与一个并行的检索分支组成,该检索分支可查询一个非参数化的外部记忆库——其中存储了预先编码的图像及其关联的文本片段。我们将RAC应用于长尾分类任务,在Places365-LT和iNaturalist-2018两个基准数据集上均取得了显著优于先前最先进方法的性能提升,分别提升了14.5%和6.7%。值得注意的是,该方法仅使用训练数据本身作为外部信息源,无需依赖额外标注或外部知识库。实验表明,RAC的检索模块在未经过任何提示(prompting)的情况下,能够自动学习到对尾部类别(tail classes)的高度准确识别能力。这一能力使得主编码器得以专注于常见类别(head classes)的学习,从而进一步提升其在这些类别上的表现。RAC为利用大规模预训练模型提供了一种无需微调的新范式,同时标志着在将外部记忆机制有效整合进主流计算机视觉架构方面迈出的初步一步。

长尾视觉识别的检索增强分类 | 最新论文 | HyperAI超神经