15 天前

BAMM:双向自回归运动模型

Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen
BAMM:双向自回归运动模型
摘要

从文本生成人类动作的研究长期以来主要依赖于去噪运动模型,这些模型通过扩散过程或生成式掩码机制实现。然而,这类模型在实际应用中存在显著局限性,即必须预先知晓动作的长度。相比之下,自回归运动模型通过自适应预测动作的终点,克服了这一限制,但代价是生成质量与编辑能力的下降。为解决上述挑战,我们提出了一种新型的文本到动作生成框架——双向自回归运动模型(Bidirectional Autoregressive Motion Model, BAMM)。BAMM包含两个核心组件:(1)一个动作分词器(motion tokenizer),可将三维人体动作映射到潜在空间中的离散令牌;(2)一种采用混合注意力掩码策略的掩码自注意力Transformer,能够自回归地预测随机掩码的令牌。通过融合生成式掩码建模与自回归建模的优势,BAMM能够捕捉动作令牌之间的丰富双向依赖关系,同时学习从文本输入到动作输出的概率映射,并支持动态调整动作序列长度。这一特性使得BAMM在保持高生成质量的同时,显著提升了模型的可用性与内置动作编辑能力。在HumanML3D和KIT-ML数据集上的大量实验表明,BAMM在定性与定量指标上均超越了当前最先进的方法。项目主页详见:https://exitudio.github.io/BAMM-page

BAMM:双向自回归运动模型 | 最新论文 | HyperAI超神经