Command Palette
Search for a command to run...
Détection des points de repère faciaux à l’aide de réseaux neuronaux fondés sur la distillation de connaissances
Détection des points de repère faciaux à l’aide de réseaux neuronaux fondés sur la distillation de connaissances
Ali Pourramezan Fard Mohammad H. Mahoor
Résumé
La détection des points de repère faciaux constitue une étape fondamentale pour de nombreuses applications d'analyse d'images faciales. Bien que certaines méthodes basées sur l'apprentissage profond aient obtenu de bons résultats dans cette tâche, elles sont souvent inadaptées au fonctionnement sur des dispositifs mobiles. En effet, ces méthodes reposent sur des réseaux de grande taille, caractérisés par un nombre élevé de paramètres, ce qui rend l'entraînement et la phase d'inférence coûteux en temps. L'entraînement de réseaux neuronaux légers tels que MobileNets s'avère souvent difficile, et les modèles obtenus peuvent présenter une précision insuffisante. Inspirés par la distillation de connaissances (KD), nous proposons dans cet article une nouvelle fonction de perte pour entraîner un réseau étudiant léger (par exemple, MobileNetV2) afin de réaliser la détection des points de repère faciaux. Nous utilisons deux réseaux enseignants : un « enseignant tolérant » et un « enseignant rigoureux », en conjonction avec le réseau étudiant. L'enseignant tolérant est entraîné à partir de points de repère « doux » générés par des modèles de formes actives, tandis que l'enseignant rigoureux est entraîné à partir des vérités terrain (appelés « points de repère durs »). Pour exploiter les prédictions des points de repère faciaux fournies par les réseaux enseignants, nous définissons une perte d'assistance (ALoss) pour chacun d'eux. Par ailleurs, nous introduisons une fonction de perte appelée KD-Loss, qui utilise les prédictions des points de repère fournies par les deux réseaux enseignants pré-entraînés (EfficientNet-b3) afin de guider le réseau étudiant léger vers la prédiction des points de repère durs. Nos résultats expérimentaux sur trois jeux de données faciales exigeants montrent que l'architecture proposée permet d'obtenir un réseau étudiant mieux entraîné, capable de détecter les points de repère faciaux avec une haute précision.