6 个月前

摘要

基础模型（foundation models）或预训练模型在各类语言、视觉以及视觉-语言理解任务中显著提升了性能。然而，现有的基础模型通常仅在某一类任务中表现最佳，即仅在语言、视觉或视觉-语言任务中具备优势。目前仍存在一个开放性问题：是否能够构建一种基础模型，使其在所有理解任务中均达到最优表现，我们称之为“通用基础模型”（general foundation model）。本文提出了一种新型通用基础模型——X-FM（X-基础模型）。X-FM包含一个语言编码器、一个视觉编码器以及一个融合编码器，并引入了一种新的训练方法。该方法包含两项新技术，用于从文本、图像以及图像-文本对数据中联合学习X-FM：其一是在训练语言编码器时，阻断来自视觉-语言任务的梯度传播；其二则是利用视觉-语言任务的训练过程来引导视觉编码器的学习。在多个基准数据集上的大量实验表明，X-FM显著优于现有通用基础模型，并在语言、视觉或视觉-语言理解任务中表现优于或可与现有专用基础模型相媲美。相关代码与预训练模型已开源，地址为：https://github.com/zhangxinsong-nlp/XFM。

源 PDF