Estimation profonde de l'orientation de tête à l'aide d'images synthétiques et d'une adaptation de domaine adversaire partielle pour des espaces continus d'étiquettes

L’estimation de l’orientation de la tête vise à prédire une orientation précise à partir d’une image. Les approches actuelles reposent sur l’apprentissage profond supervisé, qui nécessite généralement de grandes quantités de données étiquetées. Les annotations manuelles ou basées sur des capteurs des orientations de tête sont sujettes à des erreurs. Une solution consiste à générer des données d’entraînement synthétiques en rendant des modèles 3D du visage. Toutefois, les différences (écart de domaine) entre les images rendues (domaine source) et les images du monde réel (domaine cible) peuvent entraîner une faible performance. Les progrès en adaptation de domaine visuel permettent de réduire l’influence de ces écarts de domaine en utilisant des réseaux neuronaux adverses, qui alignent les espaces de caractéristiques entre les domaines en imposant des caractéristiques invariantes par rapport au domaine. Bien que les travaux antérieurs sur l’adaptation de domaine visuel supposent généralement des espaces d’étiquettes discrets et partagés, ces hypothèses ne sont pas valables pour les tâches d’estimation d’orientation de tête. Nous sommes les premiers à proposer une adaptation de domaine pour l’estimation de l’orientation de la tête, en mettant l’accent sur des espaces d’étiquettes partiellement partagés et continus. Plus précisément, nous adaptons les approches de pondération dominantes aux espaces d’étiquettes continus en appliquant un rééchantillonnage pondéré du domaine source pendant l’entraînement. Pour évaluer notre méthode, nous révisons et étendons des jeux de données existants, aboutissant à une nouvelle référence pour l’adaptation de domaine visuel. Nos expériences montrent que notre méthode améliore la précision de l’estimation de l’orientation de la tête sur des images du monde réel, malgré l’utilisation uniquement d’étiquettes provenant d’images synthétiques.