11일 전

Light3DPose: 다중 뷰에서 실시간 다중 인물 3D 자세 추정

Alessio Elmi, Davide Mazzini, Pietro Tortella
Light3DPose: 다중 뷰에서 실시간 다중 인물 3D 자세 추정
초록

다수의 사람에 대한 3차원 자세 추정을 위한 방법을 제안한다. 본 연구에서는 최근 제안된 unprojection 레이어를 활용하여, 2차원 자세 추정기의 백본에서 추출한 특징 맵(feature-maps)을 종합적인 3차원 장면 표현으로 통합한다. 이러한 중간 표현은 전결합형 볼륨 네트워크(fully-convolutional volumetric network)와 디코딩 단계를 통해 보다 정교하게 처리되며, 서브보크셀(sub-voxel) 정밀도로 3차원 스켈레톤을 추출한다. 제안된 방법은 몇 개의 미사용된 카메라 시점만으로 CMU Panoptic 데이터셋에서 최신 기준(MPJPE)을 달성하며, 단일 입력 시점에서도 경쟁력 있는 성능을 보인다. 또한 공개된 Shelf 데이터셋을 대상으로 모델의 전이 학습 능력을 평가한 결과, 우수한 성능 지표를 기록하였다. 본 방법은 본질적으로 효율적이다. 순수한 바텀업(bottom-up) 접근 방식이므로, 장면 내 사람 수와 독립적인 계산 복잡도를 가진다. 더불어, 2차원 부분의 계산 부담은 입력 시점 수에 따라 선형적으로 증가하지만, 전체 아키텍처는 볼륨형 대비 수개 차수 빠른 매우 경량화된 2차원 백본을 활용할 수 있어, 빠른 추론 시간을 달성한다. 시스템은 단일 1080Ti GPU에서 최대 10개의 카메라 시점을 처리하며, 6 FPS의 속도로 실행 가능하다.