13 天前

CLIP 能为视觉-语言任务带来多大提升?

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer
CLIP 能为视觉-语言任务带来多大提升?
摘要

现有的大多数视觉-语言(Vision-and-Language, V&L)模型依赖于预训练的视觉编码器,并利用相对较小规模的人工标注数据集(相较于网络爬取的数据)来感知视觉世界。然而,已有研究表明,大规模预训练通常能够带来更优的泛化性能。例如,CLIP(对比语言-图像预训练)在海量图像-标题配对数据上进行训练,已在多种视觉任务中展现出强大的零样本(zero-shot)能力。为了进一步探究CLIP所带来的优势,本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中:1)将CLIP嵌入特定任务的微调流程中;2)将CLIP与V&L预训练相结合,并迁移到下游任务。实验结果表明,CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器(如Bottom-Up-Top-Down)。我们在多个V&L任务上取得了具有竞争力甚至更优的性能,尤其在视觉问答(Visual Question Answering)、视觉蕴含(Visual Entailment)以及视觉语言导航(V&L Navigation)任务上达到了新的最先进水平。相关代码已开源,地址为:https://github.com/clip-vil/CLIP-ViL。

CLIP 能为视觉-语言任务带来多大提升? | 最新论文 | HyperAI超神经