2달 전

Hamba: 단일 뷰 3D 손 재구성에 대한 그래프 안내 이중 스캔 Mamba

Dong, Haoye ; Chharia, Aviral ; Gou, Wenbo ; Carrasco, Francisco Vicente ; De la Torre, Fernando
Hamba: 단일 뷰 3D 손 재구성에 대한 그래프 안내 이중 스캔
Mamba
초록

단일 RGB 이미지에서 3D 손 재구성은 관절 운동, 자기 가림, 물체와의 상호작용 등으로 인해 어려운 문제입니다. 기존의 최신(SOTA) 방법들은 주로 3D 손 자세와 형태를 학습하기 위해 주의력 기반 트랜스포머를 사용하지만, 관절 간의 공간 관계를 효율적으로 모델링하지 못하여 강건하고 정확한 성능을 완전히 달성하지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 그래프 학습과 상태 공간 모델링을 연결하는 새로운 그래프 안내형 Mamba 프레임워크인 Hamba를 제안합니다. 우리의 핵심 아이디어는 Mamba의 스캐닝을 그래프 안내형 양방향 스캐닝으로 개선하여 몇 개의 효과적인 토큰을 사용해 3D 재구성을 수행하는 것입니다. 이를 통해 관절 간의 공간 관계를 효율적으로 학습하여 재구성 성능을 향상시킬 수 있습니다.특히, 우리는 그래프 구조화된 관절 간의 관계와 공간 순서를 학습하고, 주의력 기반 방법보다 88.5% 적은 토큰을 사용하는 그래프 안내형 상태 공간(GSS) 블록을 설계했습니다. 또한, 상태 공간 특징과 전역 특징을 융합 모듈을 통해 통합하였습니다. GSS 블록과 융합 모듈을 활용함으로써, Hamba는 그래프 안내형 상태 공간 특징을 효과적으로 활용하며 전역과 국소 특징을 동시에 고려하여 성능 향상을 도모합니다. 여러 벤치마크와 실제 환경 테스트에서 Hamba가 기존 최신 방법들을 크게 능가한다는 것을 실험 결과로 입증하였습니다. FreiHAND 데이터셋에서 Hamba는 PA-MPVPE 5.3mm와 F@15mm 0.992를 달성하였습니다. 본 논문이 채택될 당시, Hamba는 3D 손 재구성 경쟁 리더보드 두 곳에서 1위(Rank 1)를 차지하고 있었습니다.프로젝트 웹사이트: https://humansensinglab.github.io/Hamba/