12 天前

通过可组合扩散实现任意到任意生成

Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal
通过可组合扩散实现任意到任意生成
摘要

我们提出了一种名为可组合扩散模型(Composable Diffusion, CoDi)的新型生成模型,该模型能够从任意输入模态组合生成任意输出模态组合,例如文本、图像、视频或音频。与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,且其输入不限于文本或图像等特定模态子集。尽管许多模态组合在训练数据中并不存在,我们提出在输入空间与输出空间中同时对齐不同模态,从而使得 CoDi 能够自由地基于任意输入组合进行条件生成,并生成任意模态组合,即使这些模态组合未在训练数据中出现。CoDi 采用了一种新颖的可组合生成策略,通过在扩散过程中建立模态间的对齐关系,构建一个共享的多模态空间,从而实现多种交织模态(如时间对齐的视频与音频)的同步生成。该模型高度可定制且灵活,具备出色的联合模态生成质量,在单模态合成任务上,其性能达到或超越当前最优的单模态生成模型。项目主页包含演示视频与开源代码,欢迎访问:https://codi-gen.github.io