자기지도 보조 작업을 이용한 세밀한 얼굴 표현 향상

본 논문에서는 먼저 ImageNet 사전 훈련이 세밀한 얼굴 감정 인식(Facial Emotion Recognition, FER)에 미치는 영향을 조사한다. 그 결과, 이미지에 충분한 증강(augmentation)을 적용할 경우, ImageNet 사전 훈련 후 미세 조정(fine-tuning)보다 사전 훈련 없이 처음부터 훈련하는 것이 더 우수한 성능을 보임을 확인하였다. 다음으로, 세밀한 얼굴 감정 인식 및 실제 환경(실외)에서의 감정 인식 성능을 향상시키기 위한 새로운 방법을 제안한다. 이를 Hybrid Multi-Task Learning(HMTL)이라 한다. HMTL은 기존의 감독 학습(Supervised Learning, SL) 과정에 자기지도 학습(Self-Supervised Learning, SSL)을 보조 과제로 포함하여 다중 과제 학습(Multi-Task Learning, MTL) 형태로 구현한다. 훈련 과정에서 SSL을 활용함으로써 주된 세밀한 감독 학습 과제에 대해 이미지로부터 추가적인 정보를 추출할 수 있다. 제안한 HMTL이 FER 분야에 어떻게 활용될 수 있는지 탐구하기 위해 일반적인 사전 과제(pre-text task) 기법인 퍼즐 조립(puzzling)과 이미지 보완(in-painting)을 각각 맞춤형으로 개선한 두 가지 버전을 설계하였다. 추가 데이터에 대한 사전 훈련 없이도, 두 가지 유형의 HMTL을 통해 AffectNet 벤치마크에서 최신 기준(SOTA) 성능을 달성하였다. 일반적인 SSL 사전 훈련과 제안한 HMTL 간의 실험 결과를 비교함으로써 본 연구의 차별성과 우수성을 입증하였다. 또한 HMTL은 FER 분야에만 국한되지 않으며, 두 가지 세밀한 얼굴 작업, 즉 머리 자세 추정(head pose estimation)과 성별 인식(gender recognition)에 대한 실험을 통해, HMTL이 세밀한 얼굴 표현을 향상시키는 데 큰 잠재력을 지닌다는 점을 입증하였다.