
초록
현재의 감독 학습 기반 얼굴 랜드마크 탐지 방법은 대량의 학습 데이터를 필요로 하며, 파라미터 수가 방대하기 때문에 특정 데이터셋에 과적합(overfitting)될 수 있는 문제가 있다. 본 연구에서는 오늘날 보유하고 있는 방대한 양의 레이블 없는 얼굴 이미지로부터 은닉된 얼굴 지식을 생성하는 것이 핵심 아이디어인 반감독 학습 방법을 제안한다. 첫 번째 완전히 비감독적인 단계에서, 저차원의 얼굴 임베딩을 통해 얼굴을 재구성할 수 있도록 적대적 오토인코더를 학습시킨다. 두 번째 감독 학습 단계에서는 디코더에 전이 레이어(transfer layers)를 교차 배치하여, 색상 이미지 생성 작업을 랜드마크 히트맵 예측 작업으로 재설계한다. 제안하는 프레임워크(3FabRec)는 여러 일반적인 벤치마크에서 최신 기준(SOTA) 성능을 달성하며, 가장 중요한 점은 단지 10장의 이미지에 불과한 매우 작은 학습 세트에서도 놀라운 정확도를 유지할 수 있다는 점이다. 교차 배치된 레이어는 디코더에 추가되는 파라미터 수가 매우 적어, GPU에서 추론 속도가 초당 수백 프레임(FPS)에 달한다.