Alignement facial invariant à la pose avec un seul CNN

L'alignement facial a connu des progrès substantiels au cours de la dernière décennie. L'un des foyers d'intérêt récents a été l'alignement d'une forme faciale 3D dense à des images de visages présentant de grandes poses de tête. La technologie dominante utilisée repose sur une cascade de régresseurs, par exemple des CNN (Convolutional Neural Networks), qui a montré des résultats prometteurs. Néanmoins, cette cascade de CNN souffre de plusieurs inconvénients, tels que l'absence d'un entraînement de bout en bout, des caractéristiques conçues manuellement et une vitesse d'entraînement lente. Pour remédier à ces problèmes, nous proposons une nouvelle couche, appelée couche de visualisation, qui peut être intégrée dans l'architecture CNN et permet une optimisation conjointe avec différentes fonctions de perte. Une évaluation approfondie de la méthode proposée sur plusieurs jeux de données démontre une précision d'état de l'art, tout en réduisant le temps d'entraînement d'au moins moitié par rapport à une cascade typique de CNN. De plus, nous comparons plusieurs architectures CNN avec la couche de visualisation pour mieux illustrer les avantages de son utilisation.