11 天前

AttT2M:基于多视角注意力机制的文本驱动人体运动生成

Chongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia
AttT2M:基于多视角注意力机制的文本驱动人体运动生成
摘要

基于文本描述生成三维人体动作近年来成为研究热点。该任务要求生成的动作具备多样性、自然性,并严格符合文本描述内容。由于人体动作具有复杂的时空特性,且文本与动作之间跨模态关系的学习难度较大,因此文本驱动的动作生成仍是一项极具挑战性的问题。为解决上述问题,我们提出了一种两阶段方法——AttT2M,其核心是引入多视角注意力机制:肢体部位注意力(body-part attention)与全局-局部运动-文本注意力(global-local motion-text attention)。前者从动作嵌入的视角出发,通过在VQ-VAE中引入肢体部位的时空编码器,学习更具表现力的离散潜在空间;后者则从跨模态角度出发,用于建模句子级与词级的运动-文本跨模态关联。最终,通过生成式Transformer实现文本驱动的动作合成。在HumanML3D和KIT-ML数据集上的大量实验表明,所提方法在定性与定量评估上均优于当前最先进的技术,在细粒度动作合成及动作到动作的生成(action2motion)方面表现优异。项目代码已开源,地址为:https://github.com/ZcyMonkey/AttT2M。

AttT2M:基于多视角注意力机制的文本驱动人体运动生成 | 最新论文 | HyperAI超神经