2달 전
깊은 다중태스크 아키텍처를 이용한 통합 2D 및 3D 인간 감지
Alin-Ionut Popa; Mihai Zanfir; Cristian Sminchisescu

초록
우리는 \emph{단일 카메라 이미지}에서 \emph{완전 자동 2D 및 3D 인간 감지}(DMHS), \emph{인식 및 재구성}을 위한 깊은 다중태스크 아키텍처를 제안합니다. 이 시스템은 피그어-그라운드 분할을 계산하고, 픽셀 단위로 인간의 신체 부위를 의미론적으로 식별하며, 사람의 2D 및 3D 포즈를 추정합니다. 모델은 초기 처리 단계가 점차 복잡한 계산, 정확성 및 견고성을 위해 고급 단계에 반복적으로 입력되는 다중태스크 손실을 통해 모든 구성 요소의 공동 학습을 지원합니다. 설계는 복잡한 2D 이미지 데이터(신체 부위 라벨링이 없고 관련 3D 기준 진리가 없는 경우) 또는 제한된 2D 배경 변동성을 가진 복잡한 3D 데이터와 같은 여러 데이터셋이 그렇지 않으면 일부 모델 구성 요소만 제한적으로 포함하는 것을 활용하여 완전한 학습 프로토콜을 연결할 수 있게 해줍니다.여러 어려운 2D 및 3D 데이터셋(LSP, HumanEva, Human3.6M)을 기반으로 한 상세 실험에서, 우리는 모델의 하위 구조, 다중태스크 손실에서 다양한 유형의 학습 데이터의 영향을 평가하고, 모든 처리 단계에서 최신 연구 결과를 달성할 수 있음을 보여줍니다. 또한 우리의 단일 카메라 RGB 아키텍처가 실제 환경에서 RGB-D 데이터를 기반으로 하는 최신 (상업용) Kinect 시스템과 지각적으로 경쟁할 수 있음을 입증하였습니다.