2 个月前
DECA:使用胶囊自动编码器进行深度视角等变的人体姿态估计
Garau, Nicola ; Bisagno, Niccolò ; Bródka, Piotr ; Conci, Nicola

摘要
人体姿态估计(Human Pose Estimation, HPE)旨在从图像或视频中检索出人体关节的三维位置。我们发现,当前的三维HPE方法在处理训练时未见过的视角时存在视角等变性不足的问题,即它们往往容易失败或表现不佳。深度学习方法通常依赖于尺度不变、平移不变或旋转不变的操作,如最大池化(max-pooling)。然而,采用这些操作并不一定能提高视角泛化能力,反而可能导致更加依赖数据的方法。为了解决这一问题,我们提出了一种新型的胶囊自编码器网络,并采用了快速变分贝叶斯胶囊路由算法,命名为DECA。通过将每个关节建模为一个胶囊实体,并结合路由算法,我们的方法可以在特征空间中独立于视角地保留关节的层次结构和几何结构。实现视角等变性后,我们在训练时大幅减少了网络对数据的依赖,从而提高了对未见过视角的泛化能力。在实验验证中,无论是在已见过还是未见过的视角下,无论是顶视图还是前视图,我们的方法在深度图像上的表现均优于其他方法。在RGB域中,同一网络在具有挑战性的视角转换任务上也取得了最先进的结果,并为顶视图HPE建立了一个新的框架。代码可在https://github.com/mmlab-cv/DECA 获取。