2 个月前

图像作为一种外语：BEiT在所有视觉和视觉-语言任务中的预训练

Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei

查看论文详情

摘要

语言、视觉和多模态预训练的大融合正在兴起。在本研究中，我们介绍了一种通用的多模态基础模型BEiT-3，该模型在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言，我们在三个方面推进了这一大融合：骨干架构、预训练任务和模型扩展。我们引入了多路Transformer（Multiway Transformers）用于通用建模，其模块化架构既支持深度融合又支持特定模态的编码。基于共享的骨干架构，我们以统一的方式对图像（Imglish）、文本（英语）和图像-文本对（“平行句子”）进行了掩码“语言”建模。实验结果表明，BEiT-3在目标检测（COCO）、语义分割（ADE20K）、图像分类（ImageNet）、视觉推理（NLVR2）、视觉问答（VQAv2）、图像描述生成（COCO）以及跨模态检索（Flickr30K、COCO）等多个任务上均取得了最先进水平的表现。