Utilisation de tâches auxiliaires auto-supervisées pour améliorer la représentation fine du visage

Dans cet article, nous étudions tout d’abord l’impact du pré-entraînement sur ImageNet sur la reconnaissance fine des émotions faciales (FER). Nos résultats montrent qu’en appliquant suffisamment d’augmentations d’images, l’entraînement depuis zéro permet d’obtenir de meilleurs résultats que le fine-tuning à partir d’un modèle pré-entraîné sur ImageNet. Ensuite, nous proposons une méthode visant à améliorer la FER fine et en situation réelle, appelée apprentissage multi-tâches hybride (Hybrid Multi-Task Learning, HMTL). HMTL intègre l’apprentissage auto-supervisé (Self-Supervised Learning, SSL) comme tâche auxiliaire pendant l’apprentissage supervisé classique (Supervised Learning, SL), sous la forme d’un apprentissage multi-tâches (Multi-Task Learning, MTL). L’exploitation du SSL durant l’entraînement permet d’extraire des informations supplémentaires des images pour la tâche principale de SL fine. Nous explorons comment la méthode HMTL proposée peut être appliquée dans le domaine de la FER en concevant deux variantes personnalisées de techniques courantes de tâches pré-texte : le puzzle et l’in-painting. Nous atteignons des résultats de pointe sur le benchmark AffectNet, via deux variantes de HMTL, sans recourir à un pré-entraînement sur des données supplémentaires. Les résultats expérimentaux comparant le pré-entraînement SSL classique et la méthode HMTL proposée mettent en évidence la différence et l’avantage de notre approche. Toutefois, HMTL n’est pas limitée au domaine de la FER. Des expériences menées sur deux autres tâches fines de reconnaissance faciale — l’estimation de l’orientation de la tête et la reconnaissance du genre — révèlent le potentiel de HMTL pour améliorer la représentation fine des visages.