HyperAIHyperAI
il y a 17 jours

Compréhension de langage parlé bout-en-bout pour des assistants vocaux généralisés

Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris
Compréhension de langage parlé bout-en-bout pour des assistants vocaux généralisés
Résumé

Les systèmes de compréhension du langage parlé (SLU) à bout à bout (E2E) prédise directement la sémantique d’un énoncé à partir de la parole en utilisant un seul modèle. Les travaux antérieurs dans ce domaine se sont concentrés sur des tâches ciblées dans des domaines fixes, où la structure sémantique de sortie est supposée a priori et où la parole d’entrée présente une complexité limitée. Dans ce travail, nous présentons notre approche pour développer un modèle E2E dédié à la SLU généralisée dans les assistants vocaux commerciaux (VAs). Nous proposons un système hiérarchique entièrement différentiable, basé sur des transformateurs, pré-entraînable à la fois au niveau de la reconnaissance automatique de la parole (ASR) et de la compréhension linguistique (NLU). Ce modèle est ensuite affiné à l’aide de pertes de transcription et de classification sémantique afin de traiter une grande diversité de combinaisons d’intentions et d’arguments. Ce cadre permet d’obtenir un système SLU qui atteint des améliorations significatives par rapport aux modèles de référence sur un jeu de données interne complexe et généralisé dédié aux VAs, avec une amélioration de 43 % en précision, tout en respectant toujours la cible de 99 % de précision sur le jeu de données populaire Fluent Speech Commands. Nous évaluons également notre modèle sur un ensemble de test difficile, exclusivement composé d’arguments de fente (slot) non vus durant l’entraînement, et démontrons une amélioration quasi de 20 %, ce qui témoigne de l’efficacité de notre approche dans des scénarios réels exigeants pour les assistants vocaux.