Un réseau neuronal à graphes basé sur un lexique pour la reconnaissance d'entités nommées en chinois

Les réseaux de neurones récurrents (RNN) utilisés pour la reconnaissance d'entités nommées en chinois (NER), qui suivent séquentiellement les informations au niveau des caractères et des mots, ont connu un grand succès. Toutefois, la structure en chaîne intrinsèque à ces modèles ainsi que le manque de sémantique globale rendent les approches basées sur les RNN particulièrement sensibles aux ambiguïtés lexicales. Dans ce travail, nous proposons de surmonter ce problème en introduisant un réseau de neurones graphiques basé sur un lexique, intégrant une sémantique globale. Dans ce cadre, les connaissances du lexique servent à relier les caractères entre eux afin de capturer la composition locale, tandis qu’un nœud relais global permet de modéliser la sémantique globale de la phrase ainsi que les dépendances à longue portée. Grâce aux interactions multiples basées sur des graphes entre les caractères, les mots potentiels et la sémantique globale de la phrase, les ambiguïtés lexicales peuvent être efficacement atténuées. Des expérimentations menées sur quatre jeux de données de NER montrent que le modèle proposé obtient des améliorations significatives par rapport aux modèles de référence.