
초록
RGB 이미지로부터 3D 손 메시 재구성은 증강현실(Augmented Reality, AR)을 포함한 다양한 응용 분야를 가능하게 한다. 그러나 이 과정은 실시간 처리 속도와 정확한 손 자세 및 형태뿐 아니라 타당한 메시-이미지 정합(mesh-image alignment)을 모두 만족해야 한다. 기존 연구들은 이미 유망한 성과를 달성하고 있으나, 세 가지 요구 조건을 동시에 충족하는 것은 매우 도전적인 과제이다. 본 논문에서는 손 메시 재구성 작업을 세 단계로 분리하는 새로운 파이프라인을 제안한다. 첫 번째 단계는 손 관절과 세그멘테이션을 예측하는 관절 단계(Joint stage), 두 번째 단계는 대략적인 손 메시를 예측하는 메시 단계(Mesh stage), 세 번째 단계는 오프셋 메시(offset mesh)를 이용해 메시-이미지 정합을 정교화하는 개선 단계(Refine stage)이다. 네트워크 구조와 손실 함수에 신중한 설계를 통해 고해상도의 손가락 수준의 메시-이미지 정합을 촉진하고, 모델 간의 협업을 통해 실시간 예측을 가능하게 한다. 기준 데이터셋에서 수행한 광범위한 정량적 및 정성적 실험 결과는 제안한 방법이 손 메시/자세 정밀도와 손 이미지 정합 측면에서 최신 기술 대비 우수한 성능을 보임을 입증한다. 마지막으로, 실시간 AR 시나리오의 몇 가지 예시도 제시한다.