17 天前
自回归多模态模型的扩展:预训练与指令微调
Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan

摘要
我们提出CM3Leon(发音为“变色龙”),这是一种基于检索增强、以标记(token)为单位、仅采用解码器架构的多模态语言模型,能够生成并填充文本与图像。CM3Leon采用CM3多模态架构,并进一步展现出在更大规模数据上进行扩展训练与多样化指令式数据微调所带来的显著优势。它是首个采用源自纯文本语言模型训练范式的训练流程构建的多模态模型,该流程包含大规模检索增强的预训练阶段,以及后续的多任务监督微调(Supervised Fine-Tuning, SFT)阶段。此外,CM3Leon是一种通用型模型,支持文本到图像生成与图像到文本生成两种任务,从而使得我们能够引入自包含的对比解码方法,生成高质量输出。大量实验表明,该训练范式对多模态模型具有极高的有效性。在文本到图像生成任务中,CM3Leon仅需相当于同类方法五分之一的训练计算量,便实现了当前最优的性能表现(零样本MS-COCO FID达4.88)。经过SFT微调后,CM3Leon在从语言引导的图像编辑到图像控制生成与分割等各类任务中,均展现出前所未有的可控性水平。