11 天前

一种用于运动合成的统一掩码自编码器及其块化骨架结构

Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee
一种用于运动合成的统一掩码自编码器及其块化骨架结构
摘要

人体动作合成传统上依赖于任务特定的模型,这些模型专注于解决特定挑战,例如预测未来动作或根据已知关键姿态填补中间姿态。本文提出了一种全新的任务无关模型——UNIMASK-M,该模型采用统一的架构,能够有效应对上述各类挑战。在各项任务中,该模型的性能均达到或超越当前最先进水平。受视觉Transformer(Vision Transformers, ViTs)的启发,UNIMASK-M将人体姿态分解为多个身体部位,以充分捕捉人体运动中固有的时空关系。此外,我们将多种基于姿态条件的动作合成任务重新建模为一种带有不同掩码模式输入的重建问题。通过显式地向模型提供被掩码关节点的信息,UNIMASK-M在应对遮挡情况时表现出更强的鲁棒性。实验结果表明,该模型在Human3.6M数据集上成功实现了对人体动作的准确预测;同时,在LaFAN1数据集上的动作插值任务中取得了当前最优性能,尤其在长过渡时段的表现尤为突出。更多项目详情请访问项目主页:https://evm7.github.io/UNIMASKM-page/

一种用于运动合成的统一掩码自编码器及其块化骨架结构 | 最新论文 | HyperAI超神经