기하학적 포즈 어포던스: 장면 제약 조건을 고려한 3D 인간 포즈

단일 이미지에서 인간의 포즈를 완전 3D로 추정하는 것은 최근의 많은 발전에도 불구하고 여전히 어려운 과제입니다. 본 논문에서는 장면 기하학에 대한 강력한 사전 정보가 포즈 추정 정확도를 향상시키는 데 사용될 수 있다는 가설을 탐구합니다. 이 가설을 경험적으로 검증하기 위해, 우리는 사람들이 다양한 복잡한 3D 환경과 상호작용하는 다중 시점 이미지를 포함하는 새로운 기하학적 포즈 적합성(Geometric Pose Affordance) 데이터셋을 구성했습니다. 우리는 상업적인 모션 캡처 시스템을 이용하여 포즈의 금준(gold-standard) 추정치를 수집하고, 장면 자체의 정확한 기하학적 3D CAD 모델을 구축하였습니다.이미지에서 포즈 추정을 위한 기존 프레임워크에 장면 제약 조건의 사전 지식을 주입하기 위해, 우리는 새로운 시각 기반의 장면 기하학 표현인 다층 깊이 맵(multi-layer depth map) 을 소개합니다. 이 표현은 각 카메라 뷰 레이 방향에 따라 여러 표면 진입 및 탈출 점을 간결하게 인코딩하기 위해 다중 히트 레이 트레이싱(multi-hit ray tracing)을 활용합니다. 우리는 다층 깊이 정보를 포즈 추정에 통합하는 두 가지 다른 메커니즘을 제안합니다: 첫 번째는 2D 포즈를 완전 3D로 변환하는데 사용되는 인코딩된 레이 특성을 입력으로 사용하는 방법이고, 두 번째는 학습된 모델이 기하학적으로 일관된 포즈 추정치를 선호하도록 유도하는 미분 가능한 손실 함수(differentiable loss)로서 다층 깊이 정보를 사용하는 방법입니다. 실험 결과, 이러한 기법들이 특히 가림 현상(occlusion)과 복잡한 장면 기하학이 있는 경우 3D 포즈 추정의 정확도를 개선할 수 있음을 보였습니다.