2 个月前
PaLI:一种联合扩展的多语言文本-图像模型
Xi Chen; Xiao Wang; Soravit Changpinyo; AJ Piergiovanni; Piotr Padlewski; Daniel Salz; Sebastian Goodman; Adam Grycner; Basil Mustafa; Lucas Beyer; Alexander Kolesnikov; Joan Puigcerver; Nan Ding; Keran Rong; Hassan Akbari; Gaurav Mishra; Linting Xue; Ashish Thapliyal; James Bradbury; Weicheng Kuo; Mojtaba Seyedhosseini; Chao Jia; Burcu Karagol Ayan; Carlos Riquelme; Andreas Steiner; Anelia Angelova; Xiaohua Zhai; Neil Houlsby; Radu Soricut

摘要
有效的扩展和灵活的任务接口使得大型语言模型在许多任务中表现出色。我们介绍了PaLI(Pathways Language and Image模型),这是一种将语言和视觉联合建模的方法。PaLI基于视觉和文本输入生成文本,并通过这一接口执行多种视觉、语言和多模态任务,支持多种语言。为了训练PaLI,我们利用了大规模预训练的编码器-解码器语言模型和视觉变换器(Vision Transformers,简称ViTs)。这使我们能够充分利用它们现有的能力,并分摊其高昂的训练成本。我们发现,视觉和语言组件的联合扩展非常重要。由于现有的语言Transformer比其视觉对应部分要大得多,我们训练了一个具有40亿参数的大规模ViT(ViT-e),以量化更大容量视觉模型带来的好处。为了训练PaLI,我们创建了一个包含100多种语言的100亿张图像和文本的新图像-文本训练集,并基于此构建了一个大规模的多语言预训练任务混合体。PaLI在多个视觉和语言任务(如图像描述、视觉问答、场景文本理解)中达到了最先进的水平,同时保持了简单、模块化和可扩展的设计。