Apprentissage efficace des caractéristiques faciales à l’aide de réseaux de neurones convolutionnels basés sur un ensemble large

Les méthodes d’ensemble, traditionnellement construites à partir de modèles entraînés indépendamment et décorrélés, se sont révélées efficaces pour réduire l’erreur de généralisation résiduelle, conduisant à des approches robustes et précises adaptées aux applications réelles. Toutefois, dans le cadre de l’apprentissage profond, l’entraînement d’un ensemble de réseaux neuronaux profonds est coûteux et engendre une forte redondance, ce qui rend la méthode inefficace. Dans ce travail, nous présentons des expériences sur les Ensembles à Représentations Partagées (ESRs) basés sur des réseaux convolutifs, afin de démontrer, de manière quantitative et qualitative, leur efficacité en traitement des données et leur capacité à être échelonnées à de grandes bases de données d’expressions faciales. Nous montrons que la redondance et la charge computationnelle peuvent être considérablement réduites en modifiant le niveau de branchement de l’ESR, sans perte de diversité ni de puissance de généralisation — deux facteurs essentiels à la performance des ensembles. Les expériences menées sur de grandes bases de données suggèrent que les ESRs réduisent l’erreur de généralisation résiduelle sur les jeux de données AffectNet et FER+, atteignent des performances au niveau humain, et surpassent les méthodes de pointe en reconnaissance d’expressions faciales dans des conditions réelles, en utilisant des concepts émotionnels et d’affect.