8 个月前

摘要

从单张RGB图像中重建3D手部模型具有挑战性，主要原因是关节运动、自遮挡以及与物体的交互。现有的最先进（SOTA）方法采用基于注意力机制的 Transformer 来学习3D手部姿态和形状，但它们尚未完全实现稳健且精确的性能，主要是因为对关节之间空间关系的建模效率较低。为了解决这一问题，我们提出了一种新颖的图引导Mamba框架，命名为Hamba，该框架将图学习和状态空间建模相结合。我们的核心思想是将Mamba的扫描过程重新设计为图引导的双向扫描，以使用少量有效的标记进行3D重建。这使得我们能够高效地学习关节之间的空间关系，从而提高重建性能。具体而言，我们设计了一个图引导状态空间（GSS）模块，该模块学习图结构的关系和关节的空间序列，并且使用的标记比基于注意力的方法减少了88.5%。此外，我们通过融合模块整合了状态空间特征和全局特征。通过利用GSS模块和融合模块，Hamba有效地利用了图引导的状态空间特征，并综合考虑了全局和局部特征以提升性能。在多个基准测试和野外测试中的实验表明，Hamba显著优于现有的最先进方法，在FreiHAND数据集上实现了5.3毫米的PA-MPVPE和0.992的F@15毫米指标。截至本文被接受时，Hamba在两个3D手部重建竞赛排行榜中均位列第一。项目网站：https://humansensinglab.github.io/Hamba/

源 PDF 查看代码