2 个月前

鸸鹋:多模态生成预训练

Quan Sun; Qiying Yu; Yufeng Cui; Fan Zhang; Xiaosong Zhang; Yueze Wang; Hongcheng Gao; Jingjing Liu; Tiejun Huang; Xinlong Wang
鸸鹋:多模态生成预训练
摘要

我们介绍了Emu,这是一种基于Transformer的多模态基础模型,能够在多模态上下文中无缝生成图像和文本。该全模态模型可以通过统一的自回归训练过程无差别地接收任何单模态或多模态数据输入(例如,交错的图像、文本和视频)。首先,视觉信号被编码为嵌入向量,并与文本标记一起形成交错的输入序列。随后,Emu通过端到端训练实现统一目标,即在多模态序列中分类下一个文本标记或回归下一个视觉嵌入向量。这种多功能的多模态能力使得大规模探索多样化的预训练数据源成为可能,例如包含交错帧和文本的视频、包含交错图像和文本的网页,以及网络规模的图像-文本对和视频-文本对。Emu可以作为通用的多模态接口,支持从图像到文本和从文本到图像的任务,并且支持上下文中的图像和文本生成。在包括图像描述、视觉问答、视频问答和文本到图像生成在内的广泛零样本/少样本任务中,Emu表现出色,优于当前最先进的大型多模态模型。此外,通过指令微调实现的多模态助手等扩展功能也展示了令人印象深刻的表现。