2 个月前

DisCoRD:通过修正流将离散标记解码为连续运动

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
DisCoRD:通过修正流将离散标记解码为连续运动
摘要

人类运动本质上是连续且动态的,这对生成模型提出了重大挑战。尽管离散量化方法(如VQ-VAE)在该领域占据主导地位,但它们存在固有的局限性,包括表达能力受限和帧间噪声伪影。虽然连续方法能够生成更加平滑和自然的运动,但由于高维复杂性和有限的训练数据,这些方法往往表现不佳。为了解决离散表示与连续表示之间的这种“不协调”,我们提出了一种新的方法——DisCoRD:通过修正流解码将离散运动标记转换为连续运动(Discrete Tokens to Continuous Motion via Rectified Flow Decoding)。DisCoRD通过在连续空间中采用迭代精炼过程,捕捉了细粒度的动力学特征,并确保生成的运动更加平滑和自然。我们的方法与任何基于离散的框架兼容,在提高自然性的同时不会牺牲对条件信号的忠实度。广泛的评估表明,DisCoRD在HumanML3D数据集上的FID得分为0.032,在KIT-ML数据集上的FID得分为0.169,达到了当前最佳性能。这些结果进一步证明了DisCoRD是一种稳健的解决方案,能够在保持离散效率的同时实现连续的真实感。项目页面可访问:https://whwjdqls.github.io/discord.github.io/。

DisCoRD:通过修正流将离散标记解码为连续运动 | 最新论文 | HyperAI超神经