Reconnaissance des expressions faciales inter-domaines : Un benchmark d'évaluation unifié et l'apprentissage par graphes adverses

Pour résoudre le problème d'incohérences de données entre différents ensembles de données de reconnaissance d'expressions faciales (FER), de nombreuses méthodes FER inter-domaines (CD-FER) ont été développées ces dernières années. Bien que chacune prétende atteindre des performances supérieures, des comparaisons équitables manquent en raison des choix incohérents des ensembles de données source/cible et des extracteurs de caractéristiques. Dans ce travail, nous analysons d'abord l'effet sur les performances causé par ces choix incohérents, puis nous réimplémentons certaines méthodes CD-FER performantes et des algorithmes d'adaptation de domaine récemment publiés. Nous nous assurons que tous ces algorithmes utilisent les mêmes ensembles de données sources et les mêmes extracteurs de caractéristiques pour des évaluations CD-FER équitables. Nous constatons que la plupart des algorithmes actuellement en tête utilisent l'apprentissage antagoniste pour apprendre des caractéristiques invariantes à travers les domaines afin d'atténuer les écarts inter-domaines. Cependant, ces algorithmes négligent les caractéristiques locales, qui sont plus transférables entre différents ensembles de données et contiennent plus de détails pertinents pour une adaptation fine. Pour remédier à ces problèmes, nous intégrons la propagation de représentation graphique à l'apprentissage antagoniste pour une co-adaptation holistique-locale inter-domaine en développant un cadre novateur d'adaptation de représentation graphique antagoniste (AGRA). Plus précisément, il construit tout d'abord deux graphes pour corrélater les régions holistiques et locales au sein de chaque domaine et entre différents domaines, respectivement. Ensuite, il extrait des caractéristiques holistiques-locales à partir de l'image d'entrée et utilise des distributions statistiques apprises par classe pour initialiser les nœuds correspondants du graphe. Enfin, deux réseaux convolutifs graphiques empilés (GCNs) sont adoptés pour propager les caractéristiques holistiques-locales au sein de chaque domaine afin d'étudier leurs interactions et entre différents domaines pour une co-adaptation holistique-locale. Nous menons des évaluations exhaustives et équitables sur plusieurs benchmarks populaires et montrons que le cadre AGRA proposé surpassera les méthodes précédentes considérées comme étant à l'état de l'art.