Analyse précise des images faciales en temps réel
Dans cet article, nous proposons un schéma de conception pour les réseaux de deep learning dans la tâche de parsing facial, offrant une précision prometteuse et une vitesse d’inférence en temps réel. En analysant les différences entre la tâche générale de parsing d’image et la tâche de parsing facial, nous réexaminons tout d’abord la structure des FCN traditionnels et apportons des améliorations afin de mieux s’adapter aux propriétés spécifiques du parsing facial. En particulier, nous introduisons le concept de Champ Réceptif Normalisé, qui permet d’offrir une meilleure compréhension pour la conception des réseaux. Ensuite, nous proposons une nouvelle fonction de perte, nommée Statistical Contextual Loss, qui intègre des informations contextuelles plus riches et régularise les caractéristiques durant l’entraînement. Pour une accélération supplémentaire du modèle, nous proposons un schéma de distillation semi-supervisée, permettant de transférer efficacement les connaissances apprises vers un réseau plus léger. Des expériences étendues sur les jeux de données LFW et Helen démontrent de manière significative l’avantage du nouveau schéma de conception en termes d’efficacité et d’efficience.