16 天前
跳出盒子:面向视觉-语言表征学习的端到端预训练
Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu

摘要
我们研究了卷积神经网络(CNN)与Transformer在视觉-语言预训练(Vision-Language Pre-training, VLPT)中的联合学习,其目标是从数百万张图像-文本配对数据中学习跨模态对齐。当前最先进的方法通常分步提取图像中的显著区域,并将这些区域与文本中的词语进行对齐。然而,基于区域的视觉特征通常仅表示图像的局部部分,这使得现有视觉-语言模型难以充分理解与自然语言配对的完整语义。本文提出SOHO(“See Out of the Box”),该方法以整张图像作为输入,实现视觉-语言表征的端到端学习。SOHO无需依赖边界框标注,因此推理速度比基于区域的方法快达10倍。特别地,SOHO通过一个视觉词典(Visual Dictionary, VD)学习提取全面且紧凑的图像特征,从而促进跨模态理解。该视觉词典旨在表征语义相似的视觉抽象的一致性表示,能够在线动态更新,并被应用于我们提出的预训练任务——掩码视觉建模(Masked Visual Modeling, MVM)。在遵循标准VLPT设置的前提下,我们在四个广泛认可的视觉-语言任务上进行了实验。结果表明,SOHO在MSCOCO文本检索5k测试集上实现了R@1指标2.0%的绝对提升,在NLVR²测试-P子集上准确率提升1.5%,在SNLI-VE测试集上准确率提升6.7%。