2 个月前
Hamba:基于图引导双扫描的单视图3D手部重建
Dong, Haoye ; Chharia, Aviral ; Gou, Wenbo ; Carrasco, Francisco Vicente ; De la Torre, Fernando

摘要
从单张RGB图像中重建3D手部模型具有挑战性,主要原因是关节运动、自遮挡以及与物体的交互。现有的最先进(SOTA)方法采用基于注意力机制的变压器来学习3D手部姿态和形状,但它们尚未完全实现稳健且精确的性能,主要是因为对关节之间空间关系的建模效率较低。为了解决这一问题,我们提出了一种新颖的图引导Mamba框架,命名为Hamba,该框架将图学习和状态空间建模相结合。我们的核心思想是将Mamba的扫描过程重新设计为图引导的双向扫描,以使用少量有效的标记进行3D重建。这使得我们能够高效地学习关节之间的空间关系,从而提高重建性能。具体而言,我们设计了一个图引导状态空间(GSS)模块,该模块学习图结构的关系和关节的空间序列,并且使用的标记比基于注意力的方法减少了88.5%。此外,我们通过融合模块整合了状态空间特征和全局特征。通过利用GSS模块和融合模块,Hamba有效地利用了图引导的状态空间特征,并综合考虑了全局和局部特征以提升性能。在多个基准测试和野外测试中的实验表明,Hamba显著优于现有的最先进方法,在FreiHAND数据集上实现了5.3毫米的PA-MPVPE和0.992的F@15毫米指标。截至本文被接受时,Hamba在两个3D手部重建竞赛排行榜中均位列第一。项目网站:https://humansensinglab.github.io/Hamba/