2 个月前

ConvFormer:通过利用动态多头卷积注意力减少Transformer模型在3D人体姿态估计中的参数量

Diaz-Arias, Alec ; Shin, Dmitriy
ConvFormer:通过利用动态多头卷积注意力减少Transformer模型在3D人体姿态估计中的参数量
摘要

近期,全变换器架构已经取代了卷积架构,成为三维人体姿态估计任务的主流方法。在本文中,我们提出了一种新的卷积变换器——ConvFormer,该模型利用了一种创新的动态多头卷积自注意力机制(dynamic multi-headed convolutional self-attention),用于单目三维人体姿态估计。我们设计了一个空间和时间卷积变换器,以全面建模单个帧内的人体关节关系以及在整个运动序列中的全局关系。此外,我们引入了一种新的概念——时间关节轮廓(temporal joints profile),用于我们的时序ConvFormer,该机制可以立即将完整的时序信息融合到局部关节特征邻域中。我们在三个常用基准数据集上对我们的方法进行了定量和定性的验证:Human3.6M、MPI-INF-3DHP 和 HumanEva。通过广泛的实验确定了最优的超参数集。这些实验表明,与先前的变换器模型相比,我们的方法实现了显著的参数减少,同时在所有三个数据集上达到了最先进(SOTA)或接近最先进的性能。此外,我们在H36M数据集的Protocol III协议下,无论是使用GT检测输入还是CPN检测输入,均达到了最先进水平。最后,我们在MPI-INF-3DHP数据集的所有三个指标以及HumanEva数据集Protocol II协议下的所有三名受试者上均取得了最先进水平。

ConvFormer:通过利用动态多头卷积注意力减少Transformer模型在3D人体姿态估计中的参数量 | 最新论文 | HyperAI超神经