11 天前
VinVL:重新审视视觉语言模型中的视觉表征
Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

摘要
本文对提升视觉-语言(Vision-Language, VL)任务中的视觉表征进行了深入研究,并提出了一种改进的物体检测模型,以生成以物体为中心的图像表征。与目前应用最广泛的自底向上与自顶向下(bottom-up and top-down)模型 \cite{anderson2018bottom} 相比,新模型具有更大的规模,其架构设计更契合VL任务需求,并在更大规模的训练语料上进行了预训练,该语料融合了多个公开的标注物体检测数据集。因此,该模型能够生成涵盖更丰富视觉对象与概念的表征。以往的VL研究主要聚焦于优化视觉-语言融合模型,而对物体检测模型本身的改进则较少关注。本文证明,视觉特征的质量在VL模型中具有显著影响。在实验中,我们将新物体检测模型生成的视觉特征输入基于Transformer的VL融合模型OSCAR \cite{li2020oscar},并采用一种改进的预训练方法 \short,对VL模型进行预训练,并在多种下游VL任务上进行微调。实验结果表明,新生成的视觉特征显著提升了所有VL任务的性能,在七个公开基准测试上均取得了新的最先进(SOTA)结果。相关的新物体检测模型将向公众开源发布。