NER chinois à l'aide de LSTM en treillis

Nous examinons un modèle LSTM à structure de treillis pour la reconnaissance d'entités nommées (NER) en chinois, qui encode une séquence de caractères d'entrée ainsi que tous les mots potentiels correspondant à un lexique. Comparé aux méthodes basées sur les caractères, notre modèle exploite explicitement l'information des mots et des séquences de mots. Par rapport aux méthodes basées sur les mots, le LSTM à structure de treillis n'est pas affecté par les erreurs de segmentation. Les cellules récurrentes à portes permettent à notre modèle de sélectionner les caractères et les mots les plus pertinents d'une phrase pour améliorer les résultats de la NER. Des expériences menées sur divers jeux de données montrent que le LSTM à structure de treillis surpassent tant les méthodes basées sur les mots que celles basées sur les caractères, obtenant ainsi les meilleurs résultats.