2 个月前

计算机视觉

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

摘要

多模态学习在视觉理解方面取得了迅速进展，主要得益于以强大大语言模型（LLM）为核心认知引擎的多模态大语言模型（MLLMs）。然而，在视觉生成任务中，这些强大的核心模型通常仅被用作扩散模型的全局文本编码器，导致其推理与规划能力大量闲置。这一局限造成了一个显著的鸿沟：当前的多模态大语言模型虽能解析复杂的布局、属性以及知识密集型场景，却难以生成在结构与精度上同样可控的图像或视频。为此，我们提出MetaCanvas——一种轻量级框架，使MLLMs能够直接在空间与时空潜在空间中进行推理与规划，并与扩散生成器实现紧密耦合。我们在三种不同的扩散模型骨干网络上实现了MetaCanvas，并在六项任务上进行了评估，涵盖文本到图像生成、文本/图像到视频生成、图像与视频编辑，以及上下文感知的视频生成，这些任务均要求精确的布局控制、稳健的属性绑定以及高度依赖推理的调控能力。实验结果表明，MetaCanvas在各项任务中均显著优于基于全局条件输入的基线方法，表明将MLLMs视为潜在空间中的规划器，是弥合多模态理解与生成之间差距的一条极具前景的技术路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

计算机视觉

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

摘要

多模态学习在视觉理解方面取得了迅速进展，主要得益于以强大大语言模型（LLM）为核心认知引擎的多模态大语言模型（MLLMs）。然而，在视觉生成任务中，这些强大的核心模型通常仅被用作扩散模型的全局文本编码器，导致其推理与规划能力大量闲置。这一局限造成了一个显著的鸿沟：当前的多模态大语言模型虽能解析复杂的布局、属性以及知识密集型场景，却难以生成在结构与精度上同样可控的图像或视频。为此，我们提出MetaCanvas——一种轻量级框架，使MLLMs能够直接在空间与时空潜在空间中进行推理与规划，并与扩散生成器实现紧密耦合。我们在三种不同的扩散模型骨干网络上实现了MetaCanvas，并在六项任务上进行了评估，涵盖文本到图像生成、文本/图像到视频生成、图像与视频编辑，以及上下文感知的视频生成，这些任务均要求精确的布局控制、稳健的属性绑定以及高度依赖推理的调控能力。实验结果表明，MetaCanvas在各项任务中均显著优于基于全局条件输入的基线方法，表明将MLLMs视为潜在空间中的规划器，是弥合多模态理解与生成之间差距的一条极具前景的技术路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供