7 天前

MaMMUT:一种用于多模态任务联合学习的简单架构

Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
MaMMUT:一种用于多模态任务联合学习的简单架构
摘要

语言模型的发展已从编码器-解码器架构演进为仅使用解码器的架构。此外,我们观察到当前两种最主流的多模态任务——生成式任务与对比式任务——难以在单一架构中有效融合,且在下游任务中还需进行额外调整。为此,我们提出一种基于仅解码器模型的新型训练范式,用于多模态任务,该方法在联合学习这些异构的视觉-语言任务方面表现出令人惊讶的有效性。这一目标通过一个简洁的模型——MaMMUT 实现。该模型仅包含一个视觉编码器和一个文本解码器,并通过在文本解码器上引入一种新颖的两阶段处理机制,实现了对比学习与生成学习的统一。我们证明,对这些多样化目标进行联合学习不仅简单高效,还能最大程度地实现模型参数在不同任务间的共享。此外,该统一架构可轻松扩展至开放词汇目标检测与视频-语言任务。该模型在保持相对较小规模的前提下,能够应对多样化的任务。在图像-文本检索、文本-图像检索、视频问答以及开放词汇目标检测等任务上,MaMMUT 达到了当前最优性能,超越了许多参数量更大、训练更充分的基础模型。在视觉问答(VQA)和视频字幕生成任务上,其表现也极具竞争力,尤其考虑到其模型容量之小。消融实验进一步验证了该方法的灵活性与优越性。