Command Palette
Search for a command to run...
Apprentissage séquentiel par flux avec modélisation de flux retardés
Apprentissage séquentiel par flux avec modélisation de flux retardés
Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez
Résumé
Nous introduisons le modèle de flux retardés (Delayed Streams Modeling, DSM), une formulation souple pour l'apprentissage séquentiel multimodal en mode flux (sequence-to-sequence). Généralement, la génération séquentielle est formulée de manière hors ligne, le modèle consommant toute la séquence d'entrée avant de produire le premier instant de sortie. À l'inverse, les modèles en mode flux séquentiel doivent apprendre une politique pour déterminer quand avancer sur le flux d'entrée ou écrire dans le flux de sortie. DSM, quant à lui, modélise des flux déjà alignés dans le temps à l’aide d’un modèle langagier uniquement décodeur. En déplaçant l’alignement vers une étape de prétraitement et en introduisant des délais appropriés entre les flux, DSM permet une inférence en flux pour des séquences de sortie arbitrairement longues, à partir de n’importe quelle combinaison d’entrées, ce qui le rend applicable à de nombreux problèmes de type séquence à séquence. En particulier, lorsqu’on dispose de flux textuels et audio, la reconnaissance automatique de parole (ASR) correspond au cas où le flux textuel est retardé, tandis que l'inverse donne un modèle de synthèse vocale (TTS). Nous menons des expériences approfondies sur ces deux tâches majeures de type séquence à séquence, montrant que DSM atteint des performances et une latence de pointe tout en supportant des séquences arbitrairement longues, étant même compétitif par rapport aux modèles hors ligne. Le code, des exemples et des démonstrations sont disponibles à l'adresse suivante : [URL]