HyperAIHyperAI

Command Palette

Search for a command to run...

MaMMUT:一种用于多模态任务联合学习的简单架构

摘要

语言模型的发展已从编码器-解码器架构演进为仅使用解码器的架构。此外,我们观察到当前两种最主流的多模态任务——生成式任务与对比式任务——难以在单一架构中有效融合,且在下游任务中还需进行额外调整。为此,我们提出一种基于仅解码器模型的新型训练范式,用于多模态任务,该方法在联合学习这些异构的视觉-语言任务方面表现出令人惊讶的有效性。这一目标通过一个简洁的模型——MaMMUT 实现。该模型仅包含一个视觉编码器和一个文本解码器,并通过在文本解码器上引入一种新颖的两阶段处理机制,实现了对比学习与生成学习的统一。我们证明,对这些多样化目标进行联合学习不仅简单高效,还能最大程度地实现模型参数在不同任务间的共享。此外,该统一架构可轻松扩展至开放词汇目标检测与视频-语言任务。该模型在保持相对较小规模的前提下,能够应对多样化的任务。在图像-文本检索、文本-图像检索、视频问答以及开放词汇目标检测等任务上,MaMMUT 达到了当前最优性能,超越了许多参数量更大、训练更充分的基础模型。在视觉问答(VQA)和视频字幕生成任务上,其表现也极具竞争力,尤其考虑到其模型容量之小。消融实验进一步验证了该方法的灵活性与优越性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供