2달 전

비디오에서 얼굴 속성 임베딩의 자기 지도 학습

Olivia Wiles; A. Sophia Koepke; Andrew Zisserman
비디오에서 얼굴 속성 임베딩의 자기 지도 학습
초록

우리는 사람이 말하거나 웃거나 시간이 지남에 따라 움직이는 얼굴 비디오를 단순히 시청함으로써 얼굴 속성을 학습하는 자기 감독 프레임워크를 제안합니다. 이 작업을 수행하기 위해, 우리는 동일한 비디오 얼굴 추적에서 여러 프레임을 공통의 저차원 공간에 임베딩하도록 훈련된 네트워크인 Facial Attributes-Net (FAb-Net)을 소개합니다. 이 접근법을 통해 세 가지 기여를 합니다: 첫째, 네트워크가 각 프레임에 대한 신뢰도/주목 마스크를 예측하여 여러 소스 프레임에서 정보를 활용할 수 있음을 보입니다; 둘째, 커리큘럼 학습 체제를 사용하면 학습된 임베딩이 개선됨을 입증합니다; 셋째, 네트워크가 어떤 라벨링된 데이터로도 감독받지 않았음에도 불구하고 머리 자세, 얼굴 랜드마크 및 표정 등 얼굴 속성에 대한 정보를 인코딩하는 의미 있는 얼굴 임베딩을 학습한다는 것을 보입니다. 이러한 작업에서 우리는 최신 자기 감독 방법과 비교할 수 있으며, 또는 그보다 우수하며, 지도학습 방법의 성능에 근접합니다.