Localisation des Points de Repère de Laplace

La localisation de points de repère dans les images et les vidéos est un problème classique qui a été résolu de diverses manières. Aujourd'hui, avec la prédominance des réseaux profonds dans l'apprentissage automatique, il y a un regain d'intérêt pour améliorer les technologies de détection de points de repère faciaux afin qu'elles puissent traiter des données plus complexes. La plupart des efforts reposent sur des objectifs de réseau basés sur les normes L1 ou L2, qui présentent plusieurs inconvénients. Tout d'abord, les positions des points de repère sont déterminées à partir de cartes de chaleur générées (c'est-à-dire des cartes de confiance), où les emplacements prédits des points de repère (c'est-à-dire les moyennes) sont pénalisés sans tenir compte de la dispersion : une grande dispersion correspond à une faible confiance et vice versa. Pour cela, nous introduisons un objectif LaplaceKL qui pénalise une faible confiance. Un autre problème est la dépendance aux données étiquetées, qui sont coûteuses à obtenir et sujettes aux erreurs. Pour résoudre ces deux problèmes, nous proposons un cadre d'entraînement adverse qui utilise des données non étiquetées pour améliorer les performances du modèle. Notre méthode revendique l'état de l'art sur tous les benchmarks 300W et se classe deuxième au meilleur sur le jeu de données Annotated Facial Landmarks in the Wild (AFLW). De plus, notre modèle est robuste avec une taille réduite : 1/8 du nombre de canaux (c'est-à-dire 0,0398 Mo) offre des performances comparables à celles de l'état de l'art en temps réel sur CPU. Ainsi, nous montrons que notre méthode présente une valeur pratique élevée pour les applications en milieu réel.