2 个月前
MaskHand:用于鲁棒手部网格重建的生成性掩码建模方法
Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Patel, Mayur Jagdishbhai ; Xue, Hongfei ; Helmy, Ahmed ; Das, Srijan ; Wang, Pu

摘要
从单张RGB图像重建三维手部网格是一项具有挑战性的任务,原因在于手部的复杂关节运动、自遮挡以及深度不确定性。传统的判别方法通过学习从二维图像到单一三维网格的确定性映射,往往难以应对二维到三维映射中的固有模糊性。为了解决这一挑战,我们提出了一种名为MaskHand的新颖生成式掩码模型,该模型通过学习和采样模糊的2D到3D映射过程的概率分布来合成合理的三维手部网格。MaskHand包含两个关键组件:(1) VQ-MANO,它在潜在空间中将三维手部关节运动编码为离散的姿态标记;(2) 上下文引导的掩码变换器(Context-Guided Masked Transformer),该变换器随机屏蔽姿态标记并学习它们的联合分布,条件包括受损的标记序列、图像上下文和二维姿态提示。这种学习到的分布有助于在推理过程中进行置信度引导的采样,从而生成低不确定性和高精度的网格重建。在基准数据集和真实世界数据集上的广泛评估表明,MaskHand在三维手部网格重建方面达到了最先进的准确性、鲁棒性和真实性。项目网站:https://m-usamasaleem.github.io/publication/MaskHand/MaskHand.html。