2 个月前
PoseFormerV2:探索频域以实现高效且鲁棒的3D人体姿态估计
Zhao, Qitao ; Zheng, Ce ; Liu, Mengyuan ; Wang, Pichao ; Chen, Chen

摘要
近期,基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作,PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态,实现了令人印象深刻的效果。然而,在实际场景中,PoseFormer及其后续方法的性能受到两个因素的限制:(a) 输入关节序列的长度;(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制,当增加帧数以获得更高的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2,该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改,所提出的方法有效融合了时间域和频率域的特征,相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上的大量实验表明,所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}。