Alignement faciale à un milliseconde avec un ensemble d'arbres de régression

Ce papier aborde le problème de l’alignement facial à partir d’une seule image. Nous montrons comment un ensemble d’arbres de régression peut être utilisé pour estimer directement les positions des points de repère faciaux à partir d’un sous-ensemble échantillonné des intensités des pixels, obtenant ainsi des performances en temps quasi réel tout en garantissant une qualité élevée des prédictions. Nous proposons un cadre général fondé sur le gradient boosting pour l’apprentissage d’un ensemble d’arbres de régression, optimisant la fonction de perte d’erreur quadratique moyenne et prenant naturellement en compte les données manquantes ou partiellement étiquetées. Nous illustrons comment l’utilisation de priori appropriés, exploitant la structure des données d’image, facilite une sélection efficace des caractéristiques. Différentes stratégies de régularisation sont également étudiées, ainsi que leur importance pour lutter contre le surapprentissage. En outre, nous analysons l’impact de la quantité de données d’entraînement sur la précision des prédictions, et explorons l’effet de l’augmentation des données à l’aide de données synthétiques.