17일 전
카메라-분리 표현을 통한 경량 다중 시점 3D 자세 추정
Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang

초록
다중 시점 이미지에서 3차원 자세를 복원하기 위한 경량 솔루션을 제안한다. 공간적으로 캘리브레이션된 카메라로 캡처된 이미지를 기반으로 하며, 최근의 해석 가능한 표현 학습 기술의 발전을 바탕으로 3차원 기하학적 구조를 활용하여 입력 이미지를 하나의 통합된 자세 잠재 표현으로 융합한다. 이 표현은 카메라 시점과 분리되어 있으며, 다양한 시점 간의 3차원 자세에 대해 계산 비용이 큰 부피 그리드를 사용하지 않고도 효과적으로 추론할 수 있도록 한다. 이후 본 아키텍처는 학습된 표현을 카메라 투영 연산자에 조건화하여 각 시점별 정확한 2차원 검출 결과를 생성하며, 이를 미분 가능한 직접 선형 변환(Direct Linear Transform, DLT) 레이어를 통해 간단히 3차원으로 복원할 수 있다. 효율적으로 수행하기 위해, 기존의 SVD 기반 삼각 측량 방법보다 GPU 아키텍처에서 수배 이상 빠른 새로운 DLT 구현 방식을 제안한다. 제안된 방법은 대규모 인간 자세 데이터셋(H36M 및 Total Capture)에서 평가되었으며, 기존의 최첨단 부피 그리드 기반 방법들과 비교해 성능이 우수하거나 유사한 수준을 보였으며, 이들와 달리 실시간 성능을 제공한다.