Apprentissage automatique supervisé par la vision des représentations vocales

L’apprentissage auto-supervisé de représentations a récemment suscité un vif intérêt dans les domaines audio et visuel. Toutefois, la plupart des travaux se concentrent habituellement sur une modalité ou une caractéristique particulière, et très peu d’études ont exploré l’interaction entre les deux modalités pour apprendre des représentations auto-supervisées. Nous proposons un cadre d’apprentissage de représentations audio guidées par la modalité visuelle dans le contexte de la parole audiovisuelle. Nous utilisons un schéma d’entraînement génératif audio-vers-vidéo, dans lequel nous animons une image statique correspondant à un clip audio donné, tout en optimisant la vidéo générée pour qu’elle soit aussi proche que possible de la vidéo réelle du segment de parole. Au cours de ce processus, le réseau d’encodeur audio apprend des représentations utiles pour la parole, que nous évaluons sur des tâches de reconnaissance d’émotions et de reconnaissance de parole. Nous obtenons des résultats de pointe pour la reconnaissance d’émotions, ainsi que des résultats compétitifs pour la reconnaissance de parole. Ces résultats démontrent le potentiel de la supervision visuelle pour l’apprentissage de représentations audio, offrant ainsi une nouvelle voie pour l’apprentissage auto-supervisé, jusqu’ici peu explorée. Les caractéristiques audio non supervisées proposées peuvent exploiter une quantité pratiquement illimitée de données d’entraînement non étiquetées en parole audiovisuelle, et présentent un grand nombre d’applications prometteuses.