HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration du transfer learning pour la compréhension linguistique parlée bout-en-bout

Subendhu Rongali Beiye Liu Liwei Cai Konstantine Arkoudas Chengwei Su Wael Hamza

Résumé

Les assistants vocaux tels qu’Alexa, Siri ou Google Assistant utilisent généralement une chaîne de traitement en deux étapes pour la compréhension du langage parlé : tout d’abord, un composant de reconnaissance automatique de la parole (ASR) qui traite la parole de l’utilisateur et génère une transcription textuelle, suivi d’un composant de compréhension du langage naturel (NLU) qui associe cette transcription à une hypothèse actionnable. Une architecture end-to-end (E2E) permettant de passer directement de la parole à une hypothèse constitue une solution plus attrayante. Ces systèmes ont été montrés plus compacts, plus rapides et mieux optimisés. Toutefois, ils nécessitent de grandes quantités de données d’entraînement E2E, et en outre, ne tirent pas parti des données d’entraînement déjà disponibles pour les tâches ASR et NLU.Dans ce travail, nous proposons un modèle E2E conçu pour entraîner simultanément sur plusieurs tâches de type parole-vers-texte, telles que l’ASR (parole-transcription) et la SLU (parole-hypothèse), ainsi que sur des tâches de type texte-vers-texte, telles que l’NLU (texte-hypothèse). Nous appelons ce modèle le modèle Audio-Text All-Task (AT-AT). Nous démontrons qu’il surpasser la performance des modèles E2E entraînés sur des tâches individuelles, en particulier dans les cas où les données d’entraînement sont limitées. Ces résultats sont établis sur un jeu de données interne consacré à la musique, ainsi que sur deux jeux de données publics, FluentSpeech et SNIPS Audio, où nous atteignons des performances de pointe (state-of-the-art). Étant donné que notre modèle peut traiter à la fois des séquences d’entrée vocales et textuelles, et apprendre à prédire une séquence cible, il permet également d’effectuer une SLU E2E en zéro-shot en n’entraînant le modèle que sur des données texte-hypothèse issues d’un nouveau domaine (sans aucune donnée vocale). Nous évaluons cette capacité sur le jeu de données Facebook TOP et établissons ainsi une nouvelle référence pour les performances E2E en zéro-shot. Nous allons bientôt rendre disponible pour la recherche future les données audio collectées pour le jeu de données TOP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Exploration du transfer learning pour la compréhension linguistique parlée bout-en-bout | Articles | HyperAI