Apprentissage profond multi-centre pour l'alignement facial

Les points de repère faciaux sont fortement corrélés entre eux, car un point de repère donné peut être estimé à partir de ses points voisins. La plupart des méthodes d'apprentissage profond existantes n'utilisent qu'une seule couche entièrement connectée, appelée couche de prédiction de forme, pour estimer les positions des points de repère faciaux. Dans cet article, nous proposons un nouveau cadre d'apprentissage profond nommé Apprentissage Multi-Centres (Multi-Center Learning) avec plusieurs couches de prédiction de forme pour l'alignement facial. Plus précisément, chaque couche de prédiction de forme met l'accent sur la détection d'un certain groupe de points de repère sémantiquement liés respectivement. Les points de repère difficiles sont traités en premier, et chaque groupe de points est ensuite optimisé séparément. De plus, afin de réduire la complexité du modèle, nous proposons une méthode d'assemblage du modèle pour intégrer plusieurs couches de prédiction de forme en une seule couche de prédiction de forme. De nombreuses expériences montrent que notre méthode est efficace pour gérer des occultations complexes et des variations d'apparence avec une performance en temps réel. Le code source de notre méthode est disponible à l'adresse suivante : https://github.com/ZhiwenShao/MCNet-Extension.