2 个月前
EgoPoseFormer:一种用于立体自我中心3D人体姿态估计的简单基线方法
Yang, Chenhongyi ; Tkach, Anastasia ; Hampali, Shreyas ; Zhang, Linguang ; Crowley, Elliot J. ; Keskin, Cem

摘要
我们提出了一种简单而有效的基于Transformer的模型——EgoPoseFormer,用于立体自中心人体姿态估计。自中心姿态估计的主要挑战在于克服关节不可见性问题,该问题由自身遮挡或头戴式摄像头有限的视场(FOV)引起。我们的方法通过引入两阶段的姿态估计范式来应对这一挑战:在第一阶段,模型利用全局信息来粗略估计每个关节的位置;在第二阶段,模型采用DETR风格的Transformer,通过利用精细的立体视觉特征来精炼这些粗略位置。此外,我们还提出了一种可变形立体注意力操作(Deformable Stereo Attention),使我们的Transformer能够有效处理多视角特征,从而在三维世界中准确定位每个关节。我们在立体UnrealEgo数据集上评估了我们的方法,并展示了其显著优于先前的方法且计算效率高:仅用相当于最先进方法7.9%的模型参数和13.1%的浮点运算次数(FLOPs),MPJPE指标提高了27.4毫米(45%提升)。令人惊讶的是,在适当的训练设置下,我们发现即使第一阶段的姿态提案网络也能实现比以往方法更优的性能。我们还证明了我们的方法可以无缝扩展到单目设置,在SceneEgo数据集上达到了最先进的性能:与现有最佳方法相比,仅用60.7%的模型参数和36.4%的浮点运算次数(FLOPs),MPJPE指标提高了25.5毫米(21%提升)。代码已开源,可在以下地址获取:https://github.com/ChenhongyiYang/egoposeformer 。