Exploration du transfer learning pour la compréhension linguistique parlée bout-en-bout

Les assistants vocaux tels qu’Alexa, Siri ou Google Assistant utilisent généralement une chaîne de traitement en deux étapes pour la compréhension du langage parlé : tout d’abord, un composant de reconnaissance automatique de la parole (ASR) qui traite la parole de l’utilisateur et génère une transcription textuelle, suivi d’un composant de compréhension du langage naturel (NLU) qui associe cette transcription à une hypothèse actionnable. Une architecture end-to-end (E2E) permettant de passer directement de la parole à une hypothèse constitue une solution plus attrayante. Ces systèmes ont été montrés plus compacts, plus rapides et mieux optimisés. Toutefois, ils nécessitent de grandes quantités de données d’entraînement E2E, et en outre, ne tirent pas parti des données d’entraînement déjà disponibles pour les tâches ASR et NLU.Dans ce travail, nous proposons un modèle E2E conçu pour entraîner simultanément sur plusieurs tâches de type parole-vers-texte, telles que l’ASR (parole-transcription) et la SLU (parole-hypothèse), ainsi que sur des tâches de type texte-vers-texte, telles que l’NLU (texte-hypothèse). Nous appelons ce modèle le modèle Audio-Text All-Task (AT-AT). Nous démontrons qu’il surpasser la performance des modèles E2E entraînés sur des tâches individuelles, en particulier dans les cas où les données d’entraînement sont limitées. Ces résultats sont établis sur un jeu de données interne consacré à la musique, ainsi que sur deux jeux de données publics, FluentSpeech et SNIPS Audio, où nous atteignons des performances de pointe (state-of-the-art). Étant donné que notre modèle peut traiter à la fois des séquences d’entrée vocales et textuelles, et apprendre à prédire une séquence cible, il permet également d’effectuer une SLU E2E en zéro-shot en n’entraînant le modèle que sur des données texte-hypothèse issues d’un nouveau domaine (sans aucune donnée vocale). Nous évaluons cette capacité sur le jeu de données Facebook TOP et établissons ainsi une nouvelle référence pour les performances E2E en zéro-shot. Nous allons bientôt rendre disponible pour la recherche future les données audio collectées pour le jeu de données TOP.