4달 전

다중 뷰를 활용한 마커 없는 3D 인간 포즈 주석 생성

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis

초록

최근 컨볼루션 네트워크(ConvNets)의 발전으로 많은 컴퓨터 비전 작업에서 병목 현상이 주석 데이터 수집으로 이동되었습니다. 본 논문에서는 인간 자세 예측 작업을 위한 주석을 자동으로 수집하는 기하학적 접근 방식을 제시합니다. 2D 인간 자세를 위한 일반적인 ConvNet에서 출발하여 다중 시점 설정을 가정할 때, 우리는 정확한 3D 인간 자세 주석을 자동으로 수집하는 방법을 설명합니다. 카메라 설정의 3D 기하학적 제약 조건과 인간 몸체의 3D 구조를 활용하여 각 시점별 2D ConvNet 예측 결과를 확률적으로 결합하여 전역적으로 최적화된 3D 자세를 생성합니다. 이 3D 자세는 주석 수집의 기반으로 사용됩니다. 우리 접근 방식으로 자동으로 생성된 주석의 이점은 두 가지 도전적인 환경에서 입증됩니다: (i) 일반적인 ConvNet 기반 2D 자세 예측기를 개인의 외모 차이점을 포착하도록 미세 조정(fine-tuning)하는 것(즉, "개인화"), 그리고 (ii) 3D 자세 지표(groundtruth)를 활용하지 않고 단일 시점에서 3D 인간 자세 예측을 위한 ConvNet을 처음부터 훈련시키는 것입니다. 제안된 다중 시점 자세 추정기는 표준 벤치마크에서 최고 수준의 성능을 달성하며, ours 방법이 사용 가능한 다중 시점 정보를 효과적으로 활용함을 보여줍니다.