부품 안내를 통한 자기 지도 3D 인간 자세 추정

카메라가 포착한 인간의 자세는 여러 변동 원인의 결과입니다. 감독된 3D 자세 추정 방법의 성능은 형태와 외관 등의 변동을 제거하는 대가로 이루어지는데, 이러한 변동은 다른 관련 작업을 해결하는 데 유용할 수 있습니다. 따라서 학습된 모델은 주석이 달린 샘플에 강하게 의존하기 때문에 작업 편향(task-bias)뿐만 아니라 데이터셋 편향(dataset-bias)도 내재화합니다. 이는 약간의 감독(weakly-supervised) 모델에도 동일하게 적용됩니다. 이를 인식하고, 우리는 라벨이 없는 비디오 프레임에서 이러한 변동을 분리하는 자기 감독(self-supervised) 학습 프레임워크를 제안합니다. 우리는 단일 부품 기반 2D 인형 모델(part-based 2D puppet model), 인간 자세 관절 제약 조건(human pose articulation constraints), 그리고 짝을 이루지 않은 3D 자세(unpaired 3D poses) 집합 형태의 인간keleton 및 자세에 대한 사전 지식을 활용합니다. 우리의 미분 가능한 형식화(differentiable formalization)는 3D 자세와 공간적 부품 맵(spatial part maps) 간의 표현 차이를 연결하여 해석 가능한 자세 분리를 발견하는 것을 촉진하며, 다양한 카메라 움직임을 가진 비디오에서 작동할 수 있도록 합니다. 새로운 실사 데이터셋에서 얻은 정성적 결과는 우리의 모델이 주요 작업인 3D 자세 추정과 부품 분할(part segmentation) 외에도 여러 작업에서 우수한 일반화 능력을 보여줍니다. 또한, 우리는 Human3.6M 및 MPI-INF-3DHP 데이터셋에서 최고 수준의 약간의 감독 3D 자세 추정 성능을 입증하였습니다.