HyperAIHyperAI

Command Palette

Search for a command to run...

Console
20 小时前

基于MetaCanvas的MLLM-Diffusion信息传递探索

基于MetaCanvas的MLLM-Diffusion信息传递探索

摘要

多模态学习在视觉理解方面取得了迅速进展,主要得益于以强大大语言模型(LLM)为核心认知引擎的多模态大语言模型(MLLMs)。然而,在视觉生成任务中,这些强大的核心模型通常仅被用作扩散模型的全局文本编码器,导致其推理与规划能力大量闲置。这一局限造成了一个显著的鸿沟:当前的多模态大语言模型虽能解析复杂的布局、属性以及知识密集型场景,却难以生成在结构与精度上同样可控的图像或视频。为此,我们提出MetaCanvas——一种轻量级框架,使MLLMs能够直接在空间与时空潜在空间中进行推理与规划,并与扩散生成器实现紧密耦合。我们在三种不同的扩散模型骨干网络上实现了MetaCanvas,并在六项任务上进行了评估,涵盖文本到图像生成、文本/图像到视频生成、图像与视频编辑,以及上下文感知的视频生成,这些任务均要求精确的布局控制、稳健的属性绑定以及高度依赖推理的调控能力。实验结果表明,MetaCanvas在各项任务中均显著优于基于全局条件输入的基线方法,表明将MLLMs视为潜在空间中的规划器,是弥合多模态理解与生成之间差距的一条极具前景的技术路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于MetaCanvas的MLLM-Diffusion信息传递探索 | 论文 | HyperAI超神经