4달 전

단순에서 세부적인 단일 이미지 3D 인간 자세 예측

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
단순에서 세부적인 단일 이미지 3D 인간 자세 예측
초록

본 논문은 단일 컬러 이미지에서 3차원 인간 자세 추정의 문제를 다룹니다. 엔드투엔드 학습 패러다임이 전반적으로 성공을 거두었음에도 불구하고, 최고 성능을 내는 접근 방식들은 2차원 관절 위치 추출을 위한 합성곱 신경망(ConvNet)과 그 다음에 이루어지는 3차원 자세 복원을 위한 최적화 단계로 구성된 두 단계 해결책을 사용하고 있습니다. 본 논문에서는 현재의 ConvNet 접근 방식에서 3차원 자세 표현이 중요한 이슈라는 점을 확인하고, 이 작업에 대한 엔드투엔드 학습의 가치를 검증하기 위해 두 가지 중요한 기여를 합니다.첫째, 주변 공간을 주제 중심으로 세밀하게 분할하여 각 관절의 복셀(voxel)별 확률을 예측하도록 하는 ConvNet 훈련 방법을 제안합니다. 이는 3차원 자세에 대한 자연스러운 표현을 생성하며, 관절 좌표의 직접 회귀보다 성능이 크게 향상됩니다. 둘째, 초기 추정치를 더욱 개선하기 위해 거칠기-정밀기 예측 체계(coarse-to-fine prediction scheme)를 활용합니다. 이 단계는 차원 증가 문제를 해결하고 이미지 특징의 반복적인 정교화와 재처리를 가능하게 합니다.제안된 접근 방식은 표준 벤치마크에서 모든 최신 방법론들을 능가하며, 평균적으로 상대 오류 감소율이 30% 이상입니다. 또한, 우리 볼륨 표현(volumetric representation)을 엔드투엔드 접근 방식보다 비효율적이지만 실용적인 관심사인 관련 아키텍처에서 사용하는 것을 연구하였습니다. 이는 대응되는 3차원 지면 진리(groundtruth)가 없는 이미지를 사용한 훈련이 가능하며, 야외 환경에서 촬영된 이미지에 대해 설득력 있는 결과를 제시할 수 있게 합니다.