17 天前

检索增强的多模态语言建模

Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih

查看论文详情

摘要

近年来，DALL-E 和 CM3 等多模态模型在文本到图像生成与图像到文本生成任务中取得了显著进展。然而，这些模型将所有学习到的知识（例如埃菲尔铁塔的外观）存储于模型参数中，导致为获取更多知识而必须不断增大模型规模和训练数据量，难以实现高效扩展。为实现知识集成的可扩展性与模块化，我们提出了一种检索增强型多模态模型，使基础多模态模型（生成器）能够通过检索器从外部记忆（如网络文档）中获取相关文本与图像信息，并加以利用。具体而言，检索器采用预训练的 CLIP 模型，而生成器则基于 LAION 数据集对 CM3 Transformer 进行训练。由此构建的模型命名为“检索增强型 CM3”（Retrieval-Augmented CM3，简称 RA-CM3），是首个能够同时检索并生成文本与图像的多模态模型。实验表明，RA-CM3 在图像生成与图像描述生成任务上显著优于 DALL-E 和 CM3 等基线模型，在 MS-COCO 数据集上分别实现了 12 点的 FID 改进与 17 点的 CIDEr 提升。同时，RA-CM3 的训练计算成本极低，仅需 DALL-E 所需计算量的 30% 以下。此外，我们还发现 RA-CM3 具备多项新颖能力，例如忠实于检索内容的图像生成能力，以及多模态上下文学习（如通过示例实现图像生成）。