8 个月前

计算机视觉

计算机视觉

Zhao Qitao ; Zheng Ce ; Liu Mengyuan ; Wang Pichao ; Chen Chen

摘要

近期，基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作，PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态，实现了令人印象深刻的效果。然而，在实际场景中，PoseFormer及其后续方法的性能受到两个因素的限制：(a) 输入关节序列的长度；(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制，当增加帧数以获得更高的估计精度时，会导致巨大的计算负担，并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2，该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改，所提出的方法有效融合了时间域和频率域的特征，相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集（即Human3.6M和MPI-INF-3DHP）上的大量实验表明，所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Zhao Qitao ; Zheng Ce ; Liu Mengyuan ; Wang Pichao ; Chen Chen

摘要

近期，基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作，PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态，实现了令人印象深刻的效果。然而，在实际场景中，PoseFormer及其后续方法的性能受到两个因素的限制：(a) 输入关节序列的长度；(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制，当增加帧数以获得更高的估计精度时，会导致巨大的计算负担，并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2，该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改，所提出的方法有效融合了时间域和频率域的特征，相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集（即Human3.6M和MPI-INF-3DHP）上的大量实验表明，所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供