HyperAI超神经

BLIP3-o:一个完全开源的统一多模态模型家族 —— 架构、训练与数据集

Jiuhai Chen, Zhiyang Xu, Xichen Pan
发布日期: 5/16/2025
BLIP3-o:一个完全开源的统一多模态模型家族 —— 架构、训练与数据集
摘要

统一图像理解与生成是近年来多模态模型研究中的一个重要趋势。尽管图像理解方面的模型设计已经得到了广泛研究,但在统一图像生成与理解的框架中,最优的模型架构与训练方案仍未被充分探索。本研究基于自回归模型与扩散模型在高质量生成与可扩展性方面的强大潜力,对它们在统一多模态框架下的应用进行了系统研究,重点包括:图像表示方法;建模目标;训练策略。在此基础上,我们提出了一种新方法:使用扩散 Transformer 来生成语义丰富的 CLIP 图像特征,区别于传统的基于 VAE 的图像表示方式。该设计在保持表示能力的同时,显著提高了训练效率和生成质量。 此外,我们发现采用分阶段预训练策略具有显著优势:先进行图像理解任务训练,再进行图像生成任务训练。这种方式能够在增强图像生成能力的同时,保留模型的图像理解能力。为进一步提升生成效果,我们使用 GPT-4o 编写了一个多样化的图像描述集,涵盖各种场景、物体、人类动作等,精心构建了一个高质量的图像生成微调数据集 —— BLIP3o-60k。基于上述创新的模型设计、训练方案与数据集,我们推出了BLIP3-o,一个最新的、统一的开源多模态模型家族,在多个主流图像理解与生成基准任务上都取得了领先性能。为了促进未来研究,我们已完全开源 BLIP3-o,包括代码、模型权重、训练脚本,以及预训练和指令微调数据集。