HyperAIHyperAI
il y a 17 jours

Intégration de réseaux pré-entraînés avec une interface de jeton continue pour une compréhension de langage parlé bout-en-bout

Seunghyun Seo, Donghyun Kwak, Bowon Lee
Intégration de réseaux pré-entraînés avec une interface de jeton continue pour une compréhension de langage parlé bout-en-bout
Résumé

La plupart des réseaux SLU (Speech Language Understanding) end-to-end (E2E) s'appuient sur des réseaux pré-entraînés en ASR (Automatic Speech Recognition), mais demeurent encore incapables de capturer pleinement la sémantique des énoncés, ce qui est essentiel pour la tâche SLU. Pour résoudre ce problème, des études récentes proposent d'utiliser des réseaux pré-entraînés en NLU (Natural Language Understanding). Toutefois, l'exploitation optimale des deux réseaux pré-entraînés n'est pas triviale ; diverses solutions ont été avancées, telles que la Distillation de Connaissance, les représentations partagées entre modalités, ou encore l'intégration de réseaux via une Interface. Nous proposons une méthode d'intégration simple et robuste pour les réseaux SLU E2E, basée sur une nouvelle interface appelée Continuous Token Interface (CTI), qui représente le point de jonction entre les réseaux ASR et NLU lorsque ces derniers sont pré-entraînés avec le même vocabulaire. Étant donné que la seule différence réside dans le niveau de bruit, nous pouvons directement transmettre la sortie du réseau ASR au réseau NLU. Ainsi, nous pouvons entraîner notre modèle SLU de manière entièrement end-to-end, sans recourir à des modules supplémentaires tels que Gumbel-Softmax. Nous évaluons notre modèle sur SLURP, un ensemble de données SLU exigeant, et obtenons des performances de pointe (state-of-the-art) sur les deux tâches d'identification d'intention et de remplissage de slots. Nous vérifions également que le réseau NLU, pré-entraîné avec un modèle de Langage Masqué (Masked Language Model), peut exploiter efficacement une représentation textuelle bruitée fournie par la CTI. En outre, nous démontrons que notre modèle peut être entraîné via un apprentissage multitâche à partir de données hétérogènes, même après intégration via la CTI.