HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage conjoint des représentations visuelles et auditives de la parole à partir de données brutes

Alexandros Haliassos Pingchuan Ma Rodrigo Mira Stavros Petridis Maja Pantic

Résumé

Nous présentons RAVEn, une approche multimodale auto-supervisée visant à apprendre conjointement des représentations visuelles et auditives de la parole. Notre objectif d'pré-entraînement consiste à encoder des entrées masquées, puis à prédire des cibles contextuelles générées par des encodeurs à momentum évoluant lentement. Guidé par les différences inhérentes entre la vidéo et l'audio, notre conception est asymétrique en ce qui concerne les tâches prétexte des deux modalités : tandis que le flux auditif prédit à la fois les cibles visuelles et auditives, le flux visuel ne prédit que les cibles auditives. Nous observons des résultats solides dans les configurations de données étiquetées à faible et haute ressource lors du réglage fin des encodeurs visuels et auditifs issus d'une seule étape de pré-entraînement, au cours de laquelle les encodeurs sont entraînés conjointement. Notamment, RAVEn surpasse toutes les méthodes auto-supervisées en reconnaissance visuelle de la parole (RVP) sur LRS3, et combiner RAVEn avec un apprentissage auto en utilisant seulement 30 heures de données étiquetées dépasse même une méthode semi-supervisée récente formée sur 90 000 heures de données non publiques. En même temps, nous obtenons des résultats d'état de l'art dans le cadre à faible ressource LRS3 pour la reconnaissance auditive de la parole (ainsi que pour la RVP). Nos observations suggèrent la faisabilité d'apprendre des représentations puissantes de la parole entièrement à partir de vidéos et d'audios bruts, c'est-à-dire sans recourir à des caractéristiques conçues manuellement. Le code source et les modèles sont disponibles sur https://github.com/ahaliassos/raven.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp