13 天前

CLIP 能为视觉-语言任务带来多大提升？

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer

摘要

现有的大多数视觉-语言（Vision-and-Language, V&L）模型依赖于预训练的视觉编码器，并利用相对较小规模的人工标注数据集（相较于网络爬取的数据）来感知视觉世界。然而，已有研究表明，大规模预训练通常能够带来更优的泛化性能。例如，CLIP（对比语言-图像预训练）在海量图像-标题配对数据上进行训练，已在多种视觉任务中展现出强大的零样本（zero-shot）能力。为了进一步探究CLIP所带来的优势，本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中：1）将CLIP嵌入特定任务的微调流程中；2）将CLIP与V&L预训练相结合，并迁移到下游任务。实验结果表明，CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器（如Bottom-Up-Top-Down）。我们在多个V&L任务上取得了具有竞争力甚至更优的性能，尤其在视觉问答（Visual Question Answering）、视觉蕴含（Visual Entailment）以及视觉语言导航（V&L Navigation）任务上达到了新的最先进水平。相关代码已开源，地址为：https://github.com/clip-vil/CLIP-ViL。