2 个月前
Free-T2M:频率增强文本到运动扩散模型与一致性损失
Chen, Wenshuo ; Jia, Haozhe ; Lai, Songning ; Wu, Keming ; Xiao, Hongru ; Hu, Lijie ; Yue, Yutao

摘要
文本到动作生成的快速进展在很大程度上是由扩散模型推动的。然而,现有的方法仅关注时间建模,从而忽视了频域分析。我们确定了动作去噪过程中的两个关键阶段:语义规划阶段和细粒度改进阶段。为了有效应对这两个阶段,我们提出了频率增强型文本到动作扩散模型(Free-T2M),该模型引入了特定阶段的一致性损失,以增强静态特征的鲁棒性和提高细粒度精度。广泛的实验验证了我们方法的有效性。具体而言,在StableMoFusion数据集上,我们的方法将FID从0.189降低至0.051,在扩散架构内建立了新的最先进性能。这些发现强调了将频域见解纳入文本到动作生成的重要性,以实现更精确和鲁棒的结果。