Apprentissage conjoint des représentations visuelles et auditives de la parole à partir de données brutes

Nous présentons RAVEn, une approche multimodale auto-supervisée visant à apprendre conjointement des représentations visuelles et auditives de la parole. Notre objectif d'pré-entraînement consiste à encoder des entrées masquées, puis à prédire des cibles contextuelles générées par des encodeurs à momentum évoluant lentement. Guidé par les différences inhérentes entre la vidéo et l'audio, notre conception est asymétrique en ce qui concerne les tâches prétexte des deux modalités : tandis que le flux auditif prédit à la fois les cibles visuelles et auditives, le flux visuel ne prédit que les cibles auditives. Nous observons des résultats solides dans les configurations de données étiquetées à faible et haute ressource lors du réglage fin des encodeurs visuels et auditifs issus d'une seule étape de pré-entraînement, au cours de laquelle les encodeurs sont entraînés conjointement. Notamment, RAVEn surpasse toutes les méthodes auto-supervisées en reconnaissance visuelle de la parole (RVP) sur LRS3, et combiner RAVEn avec un apprentissage auto en utilisant seulement 30 heures de données étiquetées dépasse même une méthode semi-supervisée récente formée sur 90 000 heures de données non publiques. En même temps, nous obtenons des résultats d'état de l'art dans le cadre à faible ressource LRS3 pour la reconnaissance auditive de la parole (ainsi que pour la RVP). Nos observations suggèrent la faisabilité d'apprendre des représentations puissantes de la parole entièrement à partir de vidéos et d'audios bruts, c'est-à-dire sans recourir à des caractéristiques conçues manuellement. Le code source et les modèles sont disponibles sur https://github.com/ahaliassos/raven.