MARLIN: 얼굴 비디오 표현 학습을 위한 마스킹 오토인코더

본 논문은 비디오에서 보편적인 얼굴 표현을 학습하기 위한 자기 지도 방식을 제안합니다. 이 방법은 얼굴 속성 인식(Facial Attribute Recognition, FAR), 얼굴 표정 인식(Facial Expression Recognition, FER), 딥페이크 감지(DeepFake Detection, DFD), 그리고 입술 동기화(Lip Synchronization, LS)와 같은 다양한 얼굴 분석 작업에 적용할 수 있습니다. 제안된 프레임워크인 MARLIN은 얼굴 비디오 마스킹 오토인코더로, 주석이 없는 웹 크롤링 얼굴 비디오에서 매우 강력하고 일반적인 얼굴 임베딩을 학습합니다. 도전적인 보조 작업으로서, MARLIN은 눈, 코, 입, 입술 및 피부를 포함하는 밀집적으로 마스킹된 얼굴 영역에서 얼굴의 시공간 세부 정보를 재구성하여, 이를 통해 로컬 및 글로벌 측면을 포착하여 일반적이고 전이 가능한 특징을 인코딩하는 데 도움을 줍니다. 다양한 하류 작업에 대한 다양한 실험을 통해 우리는 MARLIN이 우수한 얼굴 비디오 인코더이자 특징 추출기임을 입증하였으며, 이는 FAR(감독된 벤치마크 대비 1.13% 향상), FER(비감독 벤치마크 대비 2.64% 향상), DFD(비감독 벤치마크 대비 1.86% 향상), LS(Frechet Inception Distance에서 29.36% 향상) 등 다양한 하류 작업에서 일관되게 좋은 성능을 보입니다. 또한 데이터가 적은 환경에서도 우수한 성능을 발휘합니다. 우리의 코드와 모델은 https://github.com/ControlNet/MARLIN 에서 확인할 수 있습니다.