Chaîne de réseaux de neurones CNN encodeur-décodeur avec régresseur de coordonnées apprises pour une détection robuste des points de repère faciaux
Les réseaux de neurones convolutifs (CNN) sont devenus la technologie de référence pour de nombreuses tâches de vision par ordinateur. Bien que les CNN destinés à la détection des points de repère faciaux soient très robustes, leur précision reste insuffisante lorsqu’ils traitent des images acquises dans des conditions non contrôlées. Dans cet article, nous explorons l’utilisation d’une cascade de régresseurs basés sur des réseaux de neurones afin d’améliorer la précision des positions estimées des points de repère faciaux. À cette fin, nous ajoutons deux réseaux CNN encodeur-décodeur ayant la même architecture. Le premier réseau génère un ensemble de cartes de chaleur fournissant une estimation grossière des positions des points de repère. Le second, entraîné sur des occlusions synthétiques, affine les positions des points de repère ambigus ou partiellement masqués. Enfin, une couche entièrement connectée à poids partagés entre toutes les cartes de chaleur permet une régression précise des coordonnées des points de repère. L’approche proposée atteint des résultats de pointe sur les jeux de données publics les plus exigeants : 300W, COFW et WFLW.