16 天前
Bailando:基于带有编舞记忆的演员-评论家GPT的3D舞蹈生成
Li Siyao, Weijiang Yu, Tianpei Gu, Chunze Lin, Quan Wang, Chen Qian, Chen Change Loy, Ziwei Liu

摘要
根据音乐驱动3D角色跳舞极具挑战性,主要原因在于编舞规范对动作姿态施加了严格的三维空间约束。此外,生成的舞蹈序列还需与不同音乐风格保持良好的时间连贯性。为应对这些挑战,我们提出了一种新颖的“音乐→舞蹈”生成框架——Bailando,该框架包含两个核心组件:1)一种编舞记忆机制,能够从3D姿态序列中自动学习并提炼出有意义的舞蹈单元,并将其压缩为一个量化码本;2)一个基于演员-评论家架构的生成式预训练Transformer(Actor-Critic GPT),用于将这些舞蹈单元组合成与音乐高度协调、流畅自然的舞蹈动作序列。借助所学习的编舞记忆机制,舞蹈生成过程在量化后的舞蹈单元上进行,从而确保生成的动作序列符合高标准的编舞规范,有效约束在合理的空间范围内。为实现不同动作节奏与音乐节拍之间的精准同步,我们在GPT模型中引入了一种基于演员-评论家的强化学习机制,并设计了一种新型的节拍对齐奖励函数,以提升动作与音乐节奏的匹配度。在标准基准数据集上的大量实验表明,所提出的Bailando框架在定性和定量两个方面均达到了当前最优性能。尤为突出的是,该框架所学习到的编舞记忆能够以无监督方式自动发现具有人类可解释性的舞蹈风格姿态,展现出强大的语义表达能力与泛化潜力。