HybrIK: 3D 인간 자세 및 형태 추정을 위한 하이브리드 분석-신경망 역운동학 해법

모델 기반 3D 자세 및 형태 추정 방법은 여러 매개변수를 추정하여 인간의 전체 3D 메시를 재구성합니다. 그러나 추상적인 매개변수를 학습하는 과정은 매우 비선형적이며 이미지-모델 불일치 문제로 인해 모델 성능이 중간 수준에 머물곤 합니다. 반면, 3D 키포인트 추정 방법은 깊은 CNN 네트워크와 볼륨 표현을 결합하여 픽셀 단위 정확도를 달성하지만, 비현실적인 신체 구조를 예측할 가능성이 있습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 신체 메시 추정과 3D 키포인트 추정 사이의 간극을 좁히는 방법을 제안합니다. 우리는 새로운 하이브리드 역학적 해법(HybrIK)을 제안합니다. HybrIK는 트위스트-스윙 분해를 통해 정확한 3D 관절을 직접 상대적인 신체 부위 회전으로 변환하여 3D 신체 메시를 재구성합니다. 스윙 회전은 3D 관절을 통해 해석적으로 해결되며, 트위스트 회전은 신경망을 통해 시각적 힌트에서 유도됩니다. 우리는 HybrIK가 3D 자세의 정확성과 매개변수화된 인간 모델의 현실적인 신체 구조를 모두 유지함으로써 픽셀 일치 3D 신체 메시와 더 정확한 3D 자세를 생성한다고 보여줍니다. 복잡한 추가 기술 없이도 제안된 방법은 다양한 3D 인간 자세 및 형태 벤치마크에서 최신 기법들을 크게 능가합니다. 예시로, HybrIK는 3DPW 데이터셋에서 이전 모든 방법들을 MPJPE(13.2 mm)와 PVE(21.9 mm) 측면에서 능가합니다. 우리의 코드는 https://github.com/Jeff-sjtu/HybrIK에서 확인할 수 있습니다.