ES3 : Apprentissage auto-supervisé évolutif de représentations robustes de parole audio-visual

Nous proposons une nouvelle stratégie, ES3, pour l'apprentissage auto-supervisé de représentations robustes audio-visuelles du discours à partir de vidéos non étiquetées de visages parlants. Alors que de nombreuses approches récentes pour cette tâche s'appuient principalement sur la modale audio pour guider le processus d'apprentissage, afin de capturer l'information partagée entre audio et vidéo, nous reformulons ce problème comme l'acquisition d'informations vocales partagées, uniques (spécifiques à chaque modalité) et synergétiques, afin de surmonter l'asymétrie intrinsèque entre les modalités. À partir de cette formulation, nous proposons une nouvelle stratégie « évolutive » qui construit progressivement des représentations audio-visuelles conjointes, fortes à la fois pour les modalités uniques (audio et vidéo) et pour la modalité bidimensionnelle (audio-visuelle). Premièrement, nous exploitons la modalité audio, plus facile à apprendre, pour initialiser les représentations audio et vidéo en capturant à la fois les informations vocales uniques et les informations partagées. Ensuite, nous intégrons les informations vocales spécifiques à la vidéo et construisons les représentations audio-visuelles sur la base des connaissances partagées préalablement acquises. Enfin, nous maximisons l'information vocale audio-visuelle totale, y compris l'information synergétique, afin d'obtenir des représentations robustes et complètes. Nous implémentons ES3 sous la forme d’un cadre simple de type Siamese. Des expériences menées sur des benchmarks en anglais ainsi que sur un nouveau jeu de données à grande échelle en mandarin montrent l’efficacité de notre approche. En particulier, sur LRS2-BBC, notre modèle le plus petit atteint les performances des meilleurs modèles de l’état de l’art, avec seulement la moitié des paramètres et un huitième des données non étiquetées (223 h).