Reconnaissance de Noms Propres Emboîtés par Apprentissage et Décodage de la Deuxième Meilleure Séquence

Lorsqu'un nom d'entité contient d'autres noms d'entités à l'intérieur, l'identification de toutes les combinaisons de noms peut devenir difficile et coûteuse. Nous proposons une nouvelle méthode pour reconnaître non seulement les entités nommées externes, mais aussi celles qui sont imbriquées à l'intérieur. Nous concevons une fonction objectif pour entraîner un modèle neuronal qui traite la séquence de tags des entités imbriquées comme le deuxième meilleur chemin au sein de l'intervalle de leur entité parente. De plus, nous fournissons une méthode de décodage pour l'inférence qui extrait les entités de manière itérative, du plus externe au plus interne, selon une approche extérieure-vers-intérieure. Notre méthode ne nécessite pas d'hyperparamètres supplémentaires par rapport au modèle basé sur les champs aléatoires conditionnels largement utilisé pour les tâches de reconnaissance d'entités nommées plates. Les expériences montrent que notre méthode performe mieux ou au moins aussi bien que les méthodes existantes capables de gérer les entités imbriquées, atteignant des scores F1 de 85,82 %, 84,34 % et 77,36 % sur les ensembles de données ACE-2004, ACE-2005 et GENIA, respectivement.