2 个月前

基于自中心立体视频的三维人体姿态感知

Akada, Hiroyasu ; Wang, Jian ; Golyanik, Vladislav ; Theobalt, Christian
基于自中心立体视频的三维人体姿态感知
摘要

尽管头戴式设备正变得越来越紧凑,但它们提供的以用户为中心的视图存在显著的自遮挡问题。因此,现有的方法在从以用户为中心的视图中准确估计复杂三维姿态时往往表现不佳。在这项工作中,我们提出了一种基于变压器的新框架,以改进以用户为中心的立体三维人体姿态估计,该框架利用了以用户为中心的立体视频中的场景信息和时间上下文。具体而言,我们采用了1)来自3D场景重建模块的深度特征,并对以用户为中心的立体帧进行了均匀采样;2)通过增强视频输入的时间特征来提升人体关节查询。我们的方法即使在诸如蹲下和坐下的挑战性场景中也能准确估计人体姿态。此外,我们引入了两个新的基准数据集,即UnrealEgo2和UnrealEgo-RW(RealWorld)。这些数据集提供了比现有数据集更多数量的以用户为中心的立体视图,并涵盖了更广泛的人体运动类型,从而允许对现有和未来的方法进行全面评估。我们的大量实验表明,所提出的 方法显著优于先前的方法。我们将在项目页面上发布UnrealEgo2、UnrealEgo-RW以及训练好的模型。