Apprentissage auto-supervisé d'une représentation d'attributs faciaux à partir de vidéos

Nous proposons un cadre d'apprentissage auto-supervisé pour l'acquisition des attributs faciaux en observant simplement des vidéos d'un visage humain parlant, riant et bougeant au fil du temps. Pour réaliser cette tâche, nous introduisons un réseau, le Réseau d'Attributs Faciaux (FAb-Net), qui est formé à plonger plusieurs images issues de la même piste faciale vidéo dans un espace de dimension basse commun. Avec cette approche, nous apportons trois contributions : premièrement, nous montrons que le réseau peut exploiter les informations provenant de plusieurs images sources en prédissant des masques de confiance/attention pour chaque image ; deuxièmement, nous démontrons que l'utilisation d'un régime d'apprentissage par curriculum améliore l'embedding appris ; enfin, nous démontrons que le réseau apprend une représentation faciale significative qui encode des informations sur la posture de la tête, les points clés du visage et l'expression faciale, c'est-à-dire les attributs faciaux, sans avoir été supervisé avec aucune donnée étiquetée. Nos performances sont comparables ou supérieures aux méthodes auto-supervisées de pointe dans ces tâches et s'approchent des performances des méthodes supervisées.