3달 전

단일 저해상도 이미지로부터 자기지도 학습을 이용한 3D 인간 형태 및 자세 추정

Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando De la Torre
단일 저해상도 이미지로부터 자기지도 학습을 이용한 3D 인간 형태 및 자세 추정
초록

단일 이미지에서 3D 인간 형태 및 자세 추정은 컴퓨터 비전 분야에서 활발히 연구되고 있는 주제로, 활동 인식부터 가상 아바타 생성에 이르기까지 새로운 응용 분야의 발전에 큰 영향을 미치고 있다. 기존의 딥러닝 기반 3D 인간 형태 및 자세 추정 방법은 비교적 고해상도 입력 이미지에 의존하고 있으나, 영상 감시나 스포츠 중계와 같은 여러 실용적 상황에서는 고해상도 시각 콘텐츠가 항상 존재하지는 않는다. 실세계에서의 저해상도 이미지는 다양한 크기로 변동할 수 있으며, 특정 해상도에서 학습된 모델은 다른 해상도로 전이될 때 일반적으로 부드럽게 성능이 저하되지 않는다. 저해상도 입력 문제를 해결하기 위한 두 가지 일반적인 접근법은 입력 이미지에 초해상도 기법을 적용하는 것이며, 이 경우 시각적 아티팩트가 발생할 수 있고, 또는 각 해상도마다 별도의 모델을 학습하는 것이지만, 이는 많은 실제 응용 상황에서 비현실적이다. 이러한 문제를 해결하기 위해 본 논문은 RSC-Net이라는 새로운 알고리즘을 제안한다. 이 알고리즘은 해상도 인지 네트워크(Resolution-aware network), 자기지도 학습 손실(Self-supervision loss), 그리고 대조 학습 기법(Contrastive learning scheme)으로 구성된다. 제안된 네트워크는 단일 모델을 통해 다양한 해상도에서 3D 신체 형태와 자세를 학습할 수 있다. 자기지도 학습 손실은 출력의 스케일 일관성을 유도하며, 대조 학습 기법은 깊은 특징의 스케일 일관성을 강제한다. 본 연구에서는 이러한 새로운 학습 손실이 약한 지도 학습 환경에서 3D 형태와 자세를 학습할 때 강건성을 제공함을 입증한다. 광범위한 실험을 통해 RSC-Net이 도전적인 저해상도 이미지에 대해 기존 최고 수준의 방법들보다 일관되게 우수한 성능을 달성함을 보였다.