CAE : Mécanisme pour Réduire l'Imbalance de Classes dans la Tâche de Remplissage de Cases en SLU
La tâche de compréhension du langage parlé (Spoken Language Understanding, SLU) est une application largement répandue en traitement du langage naturel (NLP). Grâce au succès du modèle pré-entraîné BERT, la compréhension du langage naturel (NLU) a été abordée par les tâches de classification d'intention et de remplissage de slots, conduisant à des performances significativement améliorées. Toutefois, le problème d'imbalance de classes dans NLU n’a pas été suffisamment exploré, bien qu’il soit fréquent dans les jeux de données de parsing sémantique. Ce travail se concentre donc sur la réduction de ce problème. Nous proposons une architecture basée sur BERT, nommée JointBERT Classify Anonymous Entity (JointBERT-CAE), qui améliore les performances du système sur trois jeux de données de parsing sémantique : ATIS, Snips, ATIS vietnamien, ainsi que sur un jeu de données célèbre de reconnaissance d'entités nommées (NER) : CoNLL2003. Dans l’architecture JointBERT-CAE, nous utilisons un apprentissage multitâche conjoint pour décomposer la tâche classique de remplissage de slots en deux sous-tâches : la détection d’entités anonymes par étiquetage de séquence, et la classification des entités anonymes reconnues. Les résultats expérimentaux montrent une amélioration solide de JointBERT-CAE par rapport à BERT sur tous les jeux de données, ainsi qu’une capacité d’application large à d’autres tâches NLP utilisant la technique d’étiquetage de séquence.