HyperAIHyperAI
il y a 18 jours

Apprentissage adaptatif de la représentation d'expression faciale via des étiquettes C-F et la distillation

{Hangyu Li; Nannan Wang; Xinpeng Ding; Xi Yang; Xinbo Gao}
Résumé

La reconnaissance des expressions faciales revêt une importance capitale dans les enquêtes criminelles et les domaines du divertissement numérique. Dans des conditions non contraintes, les bases de données existantes d’expressions faciales présentent un déséquilibre élevé entre les classes, ainsi qu’une forte similarité entre les expressions. Les méthodes précédentes ont tendance à améliorer les performances de reconnaissance des expressions en adoptant des architectures de réseaux plus profondes ou plus larges, ce qui entraîne une augmentation des coûts de stockage et de calcul. Dans cet article, nous proposons une nouvelle fonction de perte supervisée adaptative, nommée AdaReg, qui réajuste les coefficients de poids des catégories afin de corriger ce déséquilibre de classes et d’améliorer la discrimination des représentations d’expressions. Inspirés du mode cognitif humain, nous avons conçu une stratégie innovante de labels à deux niveaux, dite C-F (coarse-fine), pour guider le modèle dans une classification progressive, passant des expressions faciles aux plus difficiles, dont les représentations sont très similaires. Sur cette base, nous proposons un nouveau cadre d’apprentissage, nommé mécanisme d’enseignement émotionnel (EEM), permettant le transfert de connaissances entre un réseau enseignant expérimenté (KTN) et un réseau étudiant auto-apprenant (STSN). Plus précisément, le KTN intègre les sorties des flux grossiers et fins, apprenant ainsi les représentations d’expressions de manière progressive, du plus facile au plus difficile. Sous la supervision du KTN pré-entraîné et des connaissances acquises précédemment, le STSN peut maximiser ses performances tout en permettant une compression efficace du réseau KTN initial. Des expériences étendues sur des benchmarks publics montrent que la méthode proposée atteint des performances supérieures à celles des architectures actuelles de pointe, avec des taux de précision respectifs de 88,07 % sur RAF-DB, 63,97 % sur AffectNet et 90,49 % sur FERPlus.