비국소 잠재 관계 증류를 이용한 자기 적응형 3D 인간 포즈 추정

현재 사용 가능한 3D 인간 자세 추정 방법은 강력한 (2D/3D 자세) 또는 약한 (다중 시점 또는 깊이) 짝을 이룬 감독을 활용합니다. 합성 또는 스튜디오 환경을 제외하고, 각 새로운 대상 환경에서 이러한 감독을 얻는 것은 매우 불편합니다. 이를 해결하기 위해, 우리는 3D 자세 학습을 라벨링된 소스 도메인에서 완전히 짝을 이루지 않은 대상으로의 작업 지식 전송 문제로 설정합니다. 우리는 이미지-자세 추론(image-to-pose)을 두 가지 명시적 매핑, 즉 이미지-잠재(latent) 매핑과 잠재-자세 매핑으로 제안하며, 후자는 사전 제약 조건(pre-enforcing)을 적용한 생성적 적대 오토인코더(generative adversarial auto-encoder)에서 얻은 사전 학습된 디코더입니다.다음으로, 우리는 관계 증류(relation distillation)를 통해 짝을 이루지 않은 크로스 모달 샘플(즉, 짝을 이루지 않은 대상 비디오와 짝을 이루지 않은 3D 자세 시퀀스) 간의 정렬(alignment) 방법으로 소개합니다. 이를 위해 일반적인 대조 관계(contrastive relations)와 달리 긍정적인 결합이 로컬 이웃 구조에 한정되지 않는 장거리 잠재 자세 상호작용(long-range latent pose interactions)을 특징화하는 새로운 비국소(non-local) 관계 집합을 제안합니다. 또한, 가장 효과적인 관계 집합 선택을 위한 비국소성을 정량화하는 객관적인 방법도 제공합니다.우리는 다양한 자기 적응(self-adaptation) 설정들을 평가하고, 표준 벤치마크에서 최신 수준의 3D 인간 자세 추정 성능을 보여줍니다.