17 天前
基于视觉任务适应基准的大规模表示学习研究
Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby

摘要
表示学习有望在无需昂贵标注数据集的情况下,推动深度学习在视觉任务长尾领域的应用。然而,缺乏统一的通用视觉表示评估标准,严重制约了该领域的进展。现有的主流评估协议往往过于受限(如线性分类)、多样性不足(如仅依赖ImageNet、CIFAR、Pascal-VOC等数据集),或与表示质量的相关性较弱(如ELBO、重构误差)。为此,我们提出了视觉任务适应基准(Visual Task Adaptation Benchmark,简称VTAB),其核心思想是:优秀的表示应能以少量样本快速适应多样且未见过的任务。基于VTAB,我们对多种广泛使用的公开表示学习算法进行了大规模系统性研究。研究中,我们严格控制了模型架构和调优预算等混杂因素。通过该基准,我们深入探讨了若干关键问题:ImageNet预训练表示在标准自然图像数据集之外的表现如何?生成式与判别式模型所学习的表示有何差异?自监督学习在多大程度上可替代人工标注?当前我们距离实现通用视觉表示还有多远?