Apprentissage auto-supervisé multi-tâches et multi-modales pour la reconnaissance des expressions faciales

La communication humaine est multimodale ; par exemple, l'interaction en face à face implique des signaux auditifs (la parole) et des signaux visuels (les mouvements faciaux et les gestes de la main). Par conséquent, il est essentiel d'exploiter plusieurs modalités lors de la conception de systèmes de reconnaissance d'expressions faciales basés sur l'apprentissage automatique. De plus, étant donné les quantités croissantes de données vidéo capturant les expressions faciales humaines, ces systèmes devraient utiliser des vidéos brutes non étiquetées sans nécessiter des annotations coûteuses. Ainsi, dans ce travail, nous utilisons une méthode d'apprentissage auto-supervisé multitâche et multimodal pour la reconnaissance d'expressions faciales à partir de données vidéo issues du monde réel. Notre modèle combine trois fonctions objectif auto-supervisées : premièrement, une perte contrastive multimodale qui rapproche différentes modalités de données de la même vidéo dans l'espace de représentation. Deuxièmement, une perte de clustering multimodal qui préserve la structure sémantique des données d'entrée dans l'espace de représentation. Enfin, une perte de reconstruction multimodale des données. Nous menons une étude approfondie sur cette méthode d'apprentissage auto-supervisé multitâche et multimodal sur trois benchmarks de reconnaissance d'expressions faciales. À cet effet, nous examinons les performances de l'apprentissage à travers différentes combinaisons de tâches auto-supervisées sur la tâche descendante de reconnaissance d'expressions faciales. Notre modèle ConCluGen dépasse plusieurs baselines multimodales auto-supervisées et entièrement supervisées sur le jeu de données CMU-MOSEI. Nos résultats montrent généralement que les tâches auto-supervisées multimodales offrent des gains de performance importants pour des tâches difficiles comme la reconnaissance d'expressions faciales, tout en réduisant le volume d'annotations manuelles nécessaires. Nous rendons publics nos modèles pré-entraînés ainsi que notre code source.