18 天前

基于语言驱动的场景生成:使用多条件扩散模型

{Anh Nguyen, Thieu Vo, Dzung Nguyen, Baoru Huang, Toan Tien Nguyen, Minh Nhat Vu, An Vuong}
基于语言驱动的场景生成:使用多条件扩散模型
摘要

场景合成是一项具有诸多工业应用价值的复杂任务。近年来,研究者们致力于利用人体运动、房间布局或空间图作为输入来生成场景。然而,鲜有研究从多模态视角出发,尤其是将文本提示(text prompts)与其它模态相结合进行场景合成。本文提出了一项基于语言驱动的场景合成任务,该任务为一项新范式,旨在融合文本提示、人体运动以及现有物体信息,共同实现场景生成。与以往仅依赖单一条件的合成任务不同,本任务涉及多条件输入,要求设计有效的策略将多种异构信息统一编码至共享表征空间。为应对这一挑战,我们提出了一种多条件扩散模型(multi-conditional diffusion model)。该模型区别于现有扩散模型中通过隐式方式统一多模态信息的范式,其核心在于显式预测原始数据分布的引导点(guiding points),从而实现更精准的条件控制。理论分析表明,所提方法具有坚实的理论支撑。大量实验结果验证了该方法在性能上显著优于当前最先进的基准模型,并成功支持自然、直观的场景编辑应用。相关源代码与数据集已公开,访问地址为:https://lang-scene-synth.github.io/。