16일 전

시각-언어적 방식에서의 일반적인 얼굴 표현 학습

Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
시각-언어적 방식에서의 일반적인 얼굴 표현 학습
초록

모든 얼굴 분석 작업의 성능을 향상시키는 보편적인 얼굴 표현을 학습하는 방법은 무엇인가? 본 논문은 이 목표를 향해 한 걸음을 내딛는다. 본 연구에서는 사전 훈련된 모델이 얼굴 분석 작업에서의 전이 성능을 탐구하고, 시각-언어적 방식으로 일반적인 얼굴 표현 학습을 위한 프레임워크인 FaRL(Facial Representation Learning)을 제안한다. 한편으로, 본 프레임워크는 이미지-텍스트 쌍을 통해 고수준의 의미 정보를 학습하기 위해 대조 손실(contrastive loss)을 활용한다. 다른 한편으로는, 마스크된 이미지 모델링(masked image modeling)을 도입하여 저수준 정보를 동시에 탐색함으로써 얼굴 표현의 품질을 더욱 향상시키는 방안을 제안한다. 우리는 대량의 얼굴 이미지-텍스트 쌍을 포함하는 LAION-FACE 데이터셋에서 사전 훈련을 수행하고, 다양한 하류 작업에서 표현 능력을 평가한다. 실험 결과, 기존의 사전 훈련된 모델들과 비교해 FaRL이 더 우수한 전이 성능을 보임을 확인하였다. 또한, 데이터가 제한된 상황(저데이터 환경)에서도 본 모델의 우수성을 검증하였다. 특히 중요한 점은, 얼굴 파싱(face parsing) 및 얼굴 정렬(face alignment)과 같은 얼굴 분석 작업에서 기존 최고 성능 모델들을 뛰어넘는 성능을 달성했다는 것이다.