HyperAIHyperAI

Command Palette

Search for a command to run...

图像作为一种外语:BEiT在所有视觉和视觉-语言任务中的预训练

Wenhui Wang∗, Hangbo Bao∗, Li Dong∗, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei†

摘要

语言、视觉和多模态预训练的大融合正在兴起。在本研究中,我们介绍了一种通用的多模态基础模型BEiT-3,该模型在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言,我们在三个方面推进了这一大融合:骨干架构、预训练任务和模型扩展。我们引入了多路Transformer(Multiway Transformers)用于通用建模,其模块化架构既支持深度融合又支持特定模态的编码。基于共享的骨干架构,我们以统一的方式对图像(Imglish)、文本(英语)和图像-文本对(“平行句子”)进行了掩码“语言”建模。实验结果表明,BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述生成(COCO)以及跨模态检索(Flickr30K、COCO)等多个任务上均取得了最先进水平的表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供