Amélioration du Focus Fiducial pour la Détection de Points de Repère Faciaux

Les méthodes d'apprentissage profond ont permis des améliorations significatives dans les performances de la tâche de détection des points caractéristiques faciaux (FLD). Cependant, la détection de ces points dans des conditions difficiles, telles que les changements de posture de la tête, les expressions exagérées ou l'éclairage inégal, reste un défi en raison de la forte variabilité et du nombre insuffisant d'échantillons. Cette insuffisance peut être attribuée à l'incapacité du modèle à acquérir efficacement des informations appropriées sur la structure faciale à partir des images d'entrée. Pour remédier à cela, nous proposons une nouvelle technique d'augmentation d'images spécifiquement conçue pour la tâche FLD afin d'améliorer la compréhension du modèle des structures faciales. Afin d'utiliser efficacement cette nouvelle technique d'augmentation, nous avons mis en œuvre un mécanisme d'entraînement basé sur une architecture Siamese avec une perte basée sur l'Analyse Canonique Profonde (DCCA) pour permettre l'apprentissage collectif de représentations de caractéristiques de haut niveau à partir de deux vues différentes des images d'entrée. De plus, nous utilisons un réseau basé sur un Transformer + CNN avec un module en forme d'heures verre personnalisé comme base robuste pour le cadre Siamese. Des expériences approfondies montrent que notre approche surpasses plusieurs méthodes de pointe sur divers jeux de données de référence.