il y a 18 jours

Pré-entraînement en langage parlé pour la compréhension linguistique parlée en bout-en-bout

Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao, Michael Zeng

Résumé

La compréhension linguistique parlée (SLU) end-to-end (E2E) permet d’inférer directement le sens à partir du signal vocal, sans recourir à une chaîne composée d’un système de reconnaissance automatique de la parole (ASR) suivi d’un module de compréhension du langage naturel (NLU). Toutefois, dans un environnement de production réel, des enregistrements d’énoncés appariés à leurs sémantiques correspondantes ne sont pas toujours disponibles ou suffisants pour entraîner un modèle E2E SLU. Dans cet article, nous proposons de fusionner un encodeur E2E ASR hautement optimisé (voix) et un encodeur de modèle linguistique pré-entraîné (langage) au sein d’un décodeur Transformer. Le modèle pré-entraîné unifié voix-langage (SLP) est progressivement amélioré à partir de données étiquetées limitées provenant d’un domaine cible, en utilisant une objectif de modèle de langage masqué conditionnel (MLM), permettant ainsi de générer efficacement, lors de l’inférence, une séquence d’intention, de type d’élément et de valeur d’élément pour une entrée vocale donnée. Les résultats expérimentaux sur deux corpus publics montrent que notre approche E2E SLU surpassent la méthode classique en cascade. Elle dépasse également les approches les plus avancées actuelles en E2E SLU, tout en nécessitant beaucoup moins de données appariées.