MaskHand: 야외에서 강건한 손 메시 재구성을 위한 생성적 마스킹 모델링

단일 RGB 이미지에서 3D 손 메시를 재구성하는 것은 복잡한 관절 운동, 자기 가림 현상, 그리고 깊이의 모호성 때문에 어려운 문제입니다. 전통적인 판별 방법은 2D 이미지에서 단일 3D 메시로 결정론적인 매핑을 학습하지만, 종종 2D-3D 매핑의 고유한 모호성에 대처하기 어렵습니다. 이 문제를 해결하기 위해 우리는 MaskHand라는 새로운 생성 마스킹 모델을 제안합니다. 이 모델은 2D-3D 매핑 과정의 모호성을 기반으로 한 확률 분포를 학습하고 샘플링하여 가능한 3D 손 메시를 합성합니다. MaskHand는 두 가지 주요 구성 요소로 이루어져 있습니다: (1) VQ-MANO, 이 모듈은 잠재 공간에서 3D 손 관절 운동을 이산화된 포즈 토큰으로 인코딩하며, (2) 문맥 안내형 마스킹 트랜스포머(Context-Guided Masked Transformer), 이 모듈은 무작위로 포즈 토큰을 마스킹하고 부패된 토큰 시퀀스, 이미지 문맥, 그리고 2D 포즈 힌트에 조건부로 그들의 결합 분포를 학습합니다. 이러한 학습된 분포는 추론 시 신뢰도 기반 샘플링을 용이하게 하여 불확실성이 낮고 정밀도가 높은 메시 재구성을 생성합니다. 벤치마크 데이터셋과 실제 세계 데이터셋에서의 광범위한 평가 결과는 MaskHand가 3D 손 메시 재구성에서 최신 수준의 정확성, 강건성, 그리고 현실감을 달성함을 보여줍니다. 프로젝트 웹사이트: https://m-usamasaleem.github.io/publication/MaskHand/MaskHand.html.