7 天前

MaMMUT：一种用于多模态任务联合学习的简单架构

Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova

查看论文详情

摘要

语言模型的发展已从编码器-解码器架构演进为仅使用解码器的架构。此外，我们观察到当前两种最主流的多模态任务——生成式任务与对比式任务——难以在单一架构中有效融合，且在下游任务中还需进行额外调整。为此，我们提出一种基于仅解码器模型的新型训练范式，用于多模态任务，该方法在联合学习这些异构的视觉-语言任务方面表现出令人惊讶的有效性。这一目标通过一个简洁的模型——MaMMUT 实现。该模型仅包含一个视觉编码器和一个文本解码器，并通过在文本解码器上引入一种新颖的两阶段处理机制，实现了对比学习与生成学习的统一。我们证明，对这些多样化目标进行联合学习不仅简单高效，还能最大程度地实现模型参数在不同任务间的共享。此外，该统一架构可轻松扩展至开放词汇目标检测与视频-语言任务。该模型在保持相对较小规模的前提下，能够应对多样化的任务。在图像-文本检索、文本-图像检索、视频问答以及开放词汇目标检测等任务上，MaMMUT 达到了当前最优性能，超越了许多参数量更大、训练更充分的基础模型。在视觉问答（VQA）和视频字幕生成任务上，其表现也极具竞争力，尤其考虑到其模型容量之小。消融实验进一步验证了该方法的灵活性与优越性。