2 个月前
ELEVATER:评估语言增强视觉模型的基准和工具包
Chunyuan Li; Haotian Liu; Liunian Harold Li; Pengchuan Zhang; Jyoti Aneja; Jianwei Yang; Ping Jin; Houdong Hu; Zicheng Liu; Yong Jae Lee; Jianfeng Gao

摘要
从自然语言监督中学习视觉表示在最近的一些开创性工作中展现出巨大潜力。总体而言,这些语言增强的视觉模型在多种数据集和任务上表现出强大的迁移能力。然而,由于缺乏易于使用的评估工具包和公开基准,评估这些模型的迁移能力仍然具有挑战性。为了解决这一问题,我们构建了ELEVATER(语言增强视觉任务级迁移评估),这是首个用于评估(预训练)语言增强视觉模型的基准和工具包。ELEVATER由三个部分组成:(i) 数据集。作为下游评估套件,它包括20个图像分类数据集和35个目标检测数据集,每个数据集都加入了外部知识。(ii) 工具包。开发了一个自动超参数调优工具包,以促进模型在下游任务上的评估。(iii) 指标。使用多种评估指标来衡量样本效率(零样本和少样本)和参数效率(线性探测和全模型微调)。ELEVATER是一个面向野外计算机视觉(CVinW)的平台,并已公开发布于https://computer-vision-in-the-wild.github.io/ELEVATER/