제한된 레이블 데이터를 이용한 얼굴 특성 인식을 위한 공간-의미 관계 학습

최근 딥러닝 기술의 발전은 대규모 레이블 데이터를 활용하여 얼굴 특성 인식(Facial Attribute Recognition, FAR)에서 뛰어난 성과를 보여주고 있다. 그러나 현실 세계의 많은 FAR 응용 사례에서는 제한된 양의 레이블 데이터만 존재하여, 기존의 대부분의 딥러닝 기반 FAR 방법의 성능이 크게 저하되는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 연구에서는 공간-의미적 패치 학습(Spatial-Semantic Patch Learning, SSPL)이라는 새로운 방법을 제안한다. SSPL의 학습 과정은 두 단계로 구성된다. 첫 번째 단계에서는 대규모 레이블 없이도 활용 가능한 얼굴 이미지에서 공간-의미적 관계를 학습하기 위해, 패치 회전 작업(Patch Rotation Task, PRT), 패치 세그멘테이션 작업(Patch Segmentation Task, PST), 패치 분류 작업(Patch Classification Task, PCT)의 세 가지 보조 작업을 공동으로 설계한다. 이를 통해 강력한 사전 학습 모델을 확보할 수 있다. 특히 PRT는 자가지도 학습(self-supervised learning) 방식을 통해 얼굴 이미지의 공간 정보를 효과적으로 활용한다. PST와 PCT는 각각 얼굴 파싱 모델 기반으로 패치의 픽셀 수준 및 이미지 수준의 의미 정보를 추출한다. 두 번째 단계에서는 이러한 보조 작업을 통해 학습된 공간-의미 지식을 실제 FAR 작업에 전이한다. 이를 통해 사전 학습된 모델을 미세 조정(fine-tuning)할 때 소량의 레이블 데이터만으로도 뛰어난 성능을 달성할 수 있다. 광범위한 실험과 연구를 통해 제안한 방법이 최신 기술 대비 우수한 성능을 보임을 입증하였다.