2달 전

GenHMR: Generative Human Mesh Recovery 제네HMR: 생성적 인간 메시 복원

Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Wang, Pu ; Xue, Hongfei ; Das, Srijan ; Chen, Chen
GenHMR: Generative Human Mesh Recovery
제네HMR: 생성적 인간 메시 복원
초록

인간 메시 복원(Human Mesh Recovery, HMR)은 건강부터 예술과 엔터테인먼트에 이르는 많은 컴퓨터 비전 응용 분야에서 중요한 역할을 합니다. 단일 카메라 이미지로부터의 HMR은 주로 결정론적 방법을 통해 주어진 2D 이미지에 대해 단일 예측을 출력하는 방식으로 다루어져 왔습니다. 그러나 단일 이미지로부터의 HMR은 깊이 모호성과 가림 현상(Occlusions) 때문에 불완전한 문제(Ill-posed problem)입니다. 확률론적 방법들은 이러한 문제를 해결하기 위해 여러 개의 가능한 3D 재구성을 생성하고 융합하는 시도를 해왔지만, 그 성능은 종종 결정론적 접근법보다 뒤처졌습니다.본 논문에서는 GenHMR라는 새로운 생성 프레임워크를 소개합니다. GenHMR은 단일 카메라 HMR을 이미지를 조건으로 하는 생성 작업으로 재정의하여, 2D-3D 매핑 과정에서 발생하는 불확실성을 명시적으로 모델링하고 완화합니다. GenHMR은 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 3D 인간 자세를 잠재 공간(Latent space)에서 이산 토큰 시퀀스로 변환하는 포즈 토크나이저(Pose tokenizer), 그리고 (2) 입력 이미지 프롬프트와 무작위로 마스킹된 토큰 시퀀스를 조건으로 하여 포즈 토큰의 확률 분포를 학습하는 이미지 조건부 마스크 트랜스포머(Image-conditional masked transformer).추론 과정에서는 모델이 학습된 조건부 분포에서 샘플링하여 고신뢰도 포즈 토큰을 반복적으로 디코딩함으로써 3D 재구성의 불확실성을 줄입니다. 또한 재구성을 더욱 정교하게 하기 위해, 잠재 공간에서 디코딩된 포즈 토큰을 직접 미세 조정(Fine-tune)하는 2D 포즈 안내형 정제 기술(2D pose-guided refinement technique)이 제안되었습니다. 이 기술은 투영된 3D 신체 메시가 2D 포즈 정보와 일치하도록 강제합니다.기준 데이터셋(Benchmark datasets)에서 수행된 실험 결과, GenHMR이 최신 방법들보다 크게 우수한 성능을 보임을 입증하였습니다. 프로젝트 웹사이트는 https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html 에서 확인할 수 있습니다.