HyperAIHyperAI

Command Palette

Search for a command to run...

Free-T2M:频率增强文本到运动扩散模型与一致性损失

Chen Wenshuo ; Jia Haozhe ; Lai Songning ; Wu Keming ; Xiao Hongru ; Hu Lijie ; Yue Yutao

摘要

文本到动作生成的快速进展在很大程度上是由扩散模型推动的。然而,现有的方法仅关注时间建模,从而忽视了频域分析。我们确定了动作去噪过程中的两个关键阶段:语义规划阶段和细粒度改进阶段。为了有效应对这两个阶段,我们提出了频率增强型文本到动作扩散模型(Free-T2M),该模型引入了特定阶段的一致性损失,以增强静态特征的鲁棒性和提高细粒度精度。广泛的实验验证了我们方法的有效性。具体而言,在StableMoFusion数据集上,我们的方法将FID从0.189降低至0.051,在扩散架构内建立了新的最先进性能。这些发现强调了将频域见解纳入文本到动作生成的重要性,以实现更精确和鲁棒的结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供