15 天前

基于端到端视觉-语言Transformer的训练：一项实证研究

Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng

查看论文详情

摘要

视觉-语言（Vision-and-Language, VL）预训练在各类VL下游任务中已被证明具有极高的有效性。尽管近期研究表明，完全基于Transformer的VL模型相较于以往基于区域特征的方法在效率上更具优势，但其在下游任务上的性能往往会出现显著下降。本文提出METER——一种多模态端到端Transformer框架，旨在系统探究如何以端到端的方式设计并预训练一个完全基于Transformer的VL模型。具体而言，我们从多个维度对模型架构进行深入剖析：视觉编码器（如CLIP-ViT、Swin Transformer）、文本编码器（如RoBERTa、DeBERTa）、多模态融合模块（如合并注意力与协同注意力）、整体架构设计（如仅编码器 vs. 编码器-解码器结构）以及预训练目标（如掩码图像建模）。通过全面的实验，我们总结出提升VL Transformer模型性能的关键策略。在仅使用400万张图像进行预训练的情况下，METER在VQA v2测试标准集（test-std）上取得了77.64%的准确率，相比当前最优的基于区域特征的模型提升1.04%，并超越此前最佳的全Transformer模型1.6%。值得注意的是，当模型进一步扩大规模后，我们的最优VQA模型准确率可达80.54%。相关代码与预训练模型已开源，地址为：https://github.com/zdou0830/METER。