16 天前

ReMoDiffuse:检索增强型运动扩散模型

Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu
ReMoDiffuse:检索增强型运动扩散模型
摘要

三维人体运动生成在创意产业中具有重要意义。近年来,基于生成模型并融合领域知识的文本驱动运动生成方法取得了显著进展,有效捕捉了常见运动模式。然而,在生成多样化运动方面,现有方法的表现仍不理想。为此,本文提出 ReMoDiffuse——一种基于扩散模型的运动生成框架,通过引入检索机制对去噪过程进行优化。ReMoDiffuse 通过三项关键技术显著提升了文本驱动运动生成的泛化能力与多样性:1)混合检索(Hybrid Retrieval)能够根据语义与运动学特征的双重相似性,从数据库中精准筛选出合适的参考样本;2)语义调制 Transformer(Semantic-Modulated Transformer)可选择性地吸收检索所得知识,并自适应地适应检索样本与目标运动序列之间的差异;3)条件混合机制(Condition Mixture)在推理阶段更高效地利用检索数据库,有效缓解了无分类器引导(classifier-free guidance)中的尺度敏感性问题。大量实验表明,ReMoDiffuse 在保持文本-运动一致性与运动质量之间取得良好平衡,显著优于当前最先进方法,尤其在生成多样化运动方面表现突出。

ReMoDiffuse:检索增强型运动扩散模型 | 最新论文 | HyperAI超神经