4 个月前

掩码运动预测器是强大的3D动作表示学习器

Mao, Yunyao ; Deng, Jiajun ; Zhou, Wengang ; Fang, Yao ; Ouyang, Wanli ; Li, Houqiang
掩码运动预测器是强大的3D动作表示学习器
摘要

在3D人体动作识别中,有限的监督数据使得难以充分发挥强大网络(如变压器网络)的建模潜力。因此,研究人员一直在积极探讨有效的自监督预训练策略。在这项工作中,我们表明,与流行的预训练任务不同,即在人体关节上执行掩码自组件重建,显式的上下文运动建模对于学习有效的特征表示以实现3D动作识别的成功至关重要。具体而言,我们提出了掩码运动预测(Masked Motion Prediction, MAMP)框架。该框架以掩码时空骨架序列作为输入,并预测被掩码的人体关节对应的时域运动。考虑到骨架序列的高度时间冗余性,在我们的MAMP框架中,运动信息还充当了经验性的语义丰富性先验,指导掩码过程,促进对语义丰富的时域区域给予更多关注。在NTU-60、NTU-120和PKU-MMD数据集上的大量实验表明,所提出的MAMP预训练方法显著提升了采用的标准变压器网络的性能,在没有额外复杂技巧的情况下达到了最先进的结果。我们的MAMP源代码可在https://github.com/maoyunyao/MAMP 获取。