HyperAIHyperAI

Command Palette

Search for a command to run...

PoseFormerV2:探索频域以实现高效且鲁棒的3D人体姿态估计

Zhao Qitao ; Zheng Ce ; Liu Mengyuan ; Wang Pichao ; Chen Chen

摘要

近期,基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作,PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态,实现了令人印象深刻的效果。然而,在实际场景中,PoseFormer及其后续方法的性能受到两个因素的限制:(a) 输入关节序列的长度;(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制,当增加帧数以获得更高的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2,该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改,所提出的方法有效融合了时间域和频率域的特征,相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上的大量实验表明,所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供