2 个月前
图像作为一种外语:BEiT在所有视觉和视觉-语言任务中的预训练
Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei

摘要
语言、视觉和多模态预训练的大融合正在兴起。在本研究中,我们介绍了一种通用的多模态基础模型BEiT-3,该模型在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言,我们在三个方面推进了这一大融合:骨干架构、预训练任务和模型扩展。我们引入了多路Transformer(Multiway Transformers)用于通用建模,其模块化架构既支持深度融合又支持特定模态的编码。基于共享的骨干架构,我们以统一的方式对图像(Imglish)、文本(英语)和图像-文本对(“平行句子”)进行了掩码“语言”建模。实验结果表明,BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述生成(COCO)以及跨模态检索(Flickr30K、COCO)等多个任务上均取得了最先进水平的表现。