
초록
본 논문은 단일 카메라 이미지에서 3차원 인간 자세를 추정하기 위해 깊은 신경망을 사용한 구조화된 출력 학습에 초점을 맞추고 있습니다. 제안된 네트워크는 이미지와 3차원 자세를 입력으로 받아, 이미지-자세 쌍이 일치할 때 높고 그렇지 않을 때 낮은 점수 값을 출력합니다. 네트워크 구조는 이미지 특징 추출을 위한 컨벌루션 신경망과, 이어서 이미지 특징과 자세를 공동 임베딩으로 변환하는 두 개의 하위 네트워크로 구성됩니다. 점수 함수는 이미지 임베딩과 자세 임베딩 간의 내적입니다. 이미지-자세 임베딩과 점수 함수는 최대 마진 비용 함수를 사용하여 공동으로 훈련됩니다. 제안된 프레임워크는 깊은 신경망을 사용하여 차별적으로 학습되는 공동 특징 공간을 갖는 구조화된 서포트 벡터 머신의 특수 형태로 해석될 수 있습니다. 본 연구에서는 Human3.6m 데이터셋에서 제안된 프레임워크를 테스트하여 최근 다른 방법들과 비교해 우수한 결과를 얻었습니다. 마지막으로, 이미지-자세 임베딩 공간의 시각화 결과를 제시하여 네트워크가 신체 방향과 자세 구성에 대한 고차원적인 임베딩을 학습하였음을 보여줍니다.