Apprentissage général de représentations faciales dans un cadre visuel-linguistique

Comment apprendre une représentation faciale universelle qui améliore toutes les tâches d’analyse faciale ? Ce papier constitue une étape importante vers cet objectif. Dans cet article, nous étudions la performance de transfert des modèles pré-entraînés sur des tâches d’analyse faciale, et proposons un cadre, appelé FaRL, pour l’apprentissage généralisé de représentations faciales selon une approche visuelle-linguistique. D’un côté, ce cadre intègre une perte contrastive afin d’apprendre des significations sémantiques de haut niveau à partir de paires image-texte. De l’autre, nous proposons d’explorer simultanément des informations de bas niveau, afin d’améliorer davantage la représentation faciale, en introduisant une stratégie de modélisation d’image masquée. Nous réalisons l’entraînement préalable sur le jeu de données LAION-FACE, comprenant un grand nombre de paires image-texte liées aux visages, et évaluons la capacité de représentation sur plusieurs tâches en aval. Nous démontrons que FaRL obtient une meilleure performance de transfert par rapport aux modèles pré-entraînés précédents. Nous confirmons également son avantage dans un régime à faible quantité de données. Plus important encore, notre modèle dépasse les méthodes de pointe sur des tâches d’analyse faciale, notamment la segmentation faciale et l’alignement facial.