Un modèle de parsing sémantique à base de RNN bimodal pour la détection d'intention et le remplissage de slots

La détection d'intention et le remplissage de slots sont deux tâches principales pour la construction d'un système de compréhension du langage parlé (SLU). Plusieurs modèles basés sur l'apprentissage profond ont montré de bons résultats dans ces tâches. Les algorithmes les plus efficaces sont fondés sur les structures des modèles séquence à séquence (ou modèles « encodeur-décodeur »), et génèrent les intentions et les balises sémantiques soit en utilisant des modèles distincts, soit un modèle conjoint. La plupart des études précédentes traitent soit la détection d'intention et le remplissage de slots comme deux tâches parallèles distinctes, soit utilisent un modèle séquence à séquence pour générer à la fois les balises sémantiques et l'intention. La plupart de ces approches utilisent un seul modèle neuronal (NN) basé sur une structure encodeur-décodeur pour modéliser les deux tâches, ce qui peut ne pas pleinement tirer parti de l'interaction croisée entre elles. Dans cet article, de nouvelles structures de réseau de parsing sémantique à base de RNN bimodèle sont conçues pour effectuer conjointement les tâches de détection d'intention et de remplissage de slots, en prenant en compte leur interaction mutuelle grâce à deux LSTM bidirectionnels (BLSTM) corrélés. Notre structure bimodèle avec un décodeur atteint des résultats d'état de l'art sur les données ATIS de référence, avec une amélioration d'environ 0,5 % en précision d'intention et 0,9 % en remplissage de slots.