
摘要
多模态学习在视觉理解方面取得了迅速进展,主要得益于以强大大语言模型(LLM)为核心认知引擎的多模态大语言模型(MLLMs)。然而,在视觉生成任务中,这些强大的核心模型通常仅被用作扩散模型的全局文本编码器,导致其推理与规划能力大量闲置。这一局限造成了一个显著的鸿沟:当前的多模态大语言模型虽能解析复杂的布局、属性以及知识密集型场景,却难以生成在结构与精度上同样可控的图像或视频。为此,我们提出MetaCanvas——一种轻量级框架,使MLLMs能够直接在空间与时空潜在空间中进行推理与规划,并与扩散生成器实现紧密耦合。我们在三种不同的扩散模型骨干网络上实现了MetaCanvas,并在六项任务上进行了评估,涵盖文本到图像生成、文本/图像到视频生成、图像与视频编辑,以及上下文感知的视频生成,这些任务均要求精确的布局控制、稳健的属性绑定以及高度依赖推理的调控能力。实验结果表明,MetaCanvas在各项任务中均显著优于基于全局条件输入的基线方法,表明将MLLMs视为潜在空间中的规划器,是弥合多模态理解与生成之间差距的一条极具前景的技术路径。