Un module Prism pour la déconnexion sémantique dans la reconnaissance d'entités nommées

Le traitement du langage naturel a longtemps été confronté au problème selon lequel plusieurs sens sont imbriqués au sein d’un même mot, même en présence de contexte. Pour résoudre ce problème, nous proposons un module en prisme afin de décomposer les différents aspects sémantiques des mots et de réduire le bruit au niveau de la couche d’entrée d’un modèle. Dans ce module, certains mots sont remplacés de manière sélective par des aspects sémantiques pertinents pour la tâche, permettant ainsi d’obtenir des représentations de mots débruitées qui peuvent être directement utilisées dans les tâches ultérieures, facilitant ainsi leur traitement. Par ailleurs, nous introduisons également une structure permettant d’entraîner ce module conjointement avec le modèle de tâche sans nécessiter de données supplémentaires. Ce module peut être facilement intégré au modèle de tâche finale et améliore significativement les performances des modèles de base sur la tâche de reconnaissance d’entités nommées (NER). L’analyse d’ablation démontre la pertinence de la méthode. En outre, comme effet secondaire, la méthode proposée offre également une voie pour visualiser la contribution de chaque mot.