17 天前

FinePOSE:基于扩散模型的细粒度提示驱动3D人体姿态估计

Jinglin Xu, Yijie Guo, Yuxin Peng
FinePOSE:基于扩散模型的细粒度提示驱动3D人体姿态估计
摘要

三维人体姿态估计(3D Human Pose Estimation, 3D HPE)任务旨在从二维图像或视频中预测人体关节点在三维空间中的坐标。尽管基于深度学习的方法近年来取得了显著进展,但大多数方法仍忽略了可获取文本信息与人类自然可行知识之间的耦合能力,从而错失了可用于引导3D HPE任务的宝贵隐式监督信号。此外,以往的研究通常从整体人体的视角出发进行建模,忽视了不同身体部位中蕴含的细粒度指导信息。为此,本文提出一种基于扩散模型的新型细粒度提示驱动去噪器,命名为 FinePOSE。该方法通过三个核心模块增强扩散模型的逆向去噪过程:(1)细粒度部位感知提示学习(Fine-grained Part-aware Prompt learning, FPP) 模块,通过融合可获取的文本信息与人体部位的自然可行知识,并结合可学习的提示,构建细粒度的部位感知提示,以建模隐式引导信号;(2)细粒度提示-姿态交互(Fine-grained Prompt-pose Communication, FPC) 模块,建立学习得到的部位感知提示与姿态之间的细粒度交互机制,从而提升去噪质量;(3)提示驱动的时间步风格化(Prompt-driven Timestamp Stylization, PTS) 模块,将学习到的提示嵌入表示与与噪声水平相关的时序信息相结合,实现去噪过程中各步骤的自适应调整。在多个公开的单人姿态估计数据集上的大量实验表明,FinePOSE显著优于当前最先进的方法。此外,我们将 FinePOSE 扩展至多人姿态估计任务,在 EgoHumans 数据集上取得了 34.3mm 的平均 MPJPE(Mean Per-Joint Position Error),充分展示了其在复杂多人场景下的强大潜力。代码已开源,地址为:https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024。

FinePOSE:基于扩散模型的细粒度提示驱动3D人体姿态估计 | 最新论文 | HyperAI超神经