统一的多模态理解与生成模型:进展、挑战与机遇
Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
发布日期: 5/13/2025

摘要
近年来,多模态理解模型和图像生成模型均取得了显著进展。尽管这两个领域各自取得了成功,但它们的发展相对独立,形成了不同的架构范式:自回归架构在多模态理解中占据主导地位,而扩散模型则成为图像生成的核心。最近,开发统一框架以整合这些任务的兴趣日益增长。GPT-4o 新功能的出现体现了这一趋势,突显了统一的潜力。然而,两个领域之间的架构差异带来了重大挑战。为了提供对当前统一努力的清晰概述,我们呈现了一项全面的综述研究,旨在指导未来的研究方向。首先,我们介绍了多模态理解和文本到图像生成模型的基础概念及最新进展。接着,我们回顾了现有的统一模型,并将其归类为三种主要的架构范式:基于扩散的模型、基于自回归的模型以及融合自回归和扩散机制的混合方法。对于每一类别,我们分析了相关工作引入的结构设计和创新点。此外,我们整理了一系列专为统一模型定制的数据集和基准测试资源,为未来的探索提供了支持。最后,我们讨论了这一新兴领域面临的关键挑战,包括分词策略、跨模态注意力机制和数据问题。由于该领域仍处于早期阶段,我们预计会有快速的发展,并将定期更新此综述研究。我们的目标是激发更多的研究兴趣,并为社区提供有价值的参考。与本综述相关的参考文献可在 GitHub 上获取(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)。