BoningKnife : Détection et typage d'entités mentionnées conjointement pour le NER imbriqué via des connaissances de limites préalables

Bien que la reconnaissance d'entités nommées (NER) soit une tâche clé dans le traitement du langage naturel, la plupart des approches ne ciblent que les entités plates, ignorant les structures imbriquées qui sont courantes dans de nombreux scénarios. La plupart des méthodes de NER imbriqué existantes parcourent toutes les sous-séquences, ce qui est à la fois coûteux et inefficace, et ne prennent pas suffisamment en compte les connaissances sur les limites, qui sont essentielles pour les entités imbriquées. Dans cet article, nous proposons un modèle conjoint de détection et de typage des mentions d'entités via des connaissances de limites a priori (BoningKnife) afin d'améliorer la gestion des tâches d'extraction et de reconnaissance de NER imbriqué. BoningKnife se compose de deux modules : MentionTagger et TypeClassifier. MentionTagger exploite mieux les connaissances sur les limites au-delà du simple début/fin des entités pour améliorer la gestion des niveaux d'imbrication et des spans plus longs, tout en générant des candidats de mention de haute qualité. TypeClassifier utilise un mécanisme d'attention à deux niveaux pour découpler différentes représentations de niveaux imbriqués et distinguer mieux les types d'entités. Nous formons conjointement ces deux modules en partageant une représentation commune et une nouvelle couche d'attention à double information, ce qui conduit à une meilleure focalisation des représentations sur les informations liées aux entités. Les expériences menées sur différents jeux de données montrent que notre approche surpasses les méthodes précédentes de l'état de l'art et atteint des scores F1 de 86,41, 85,46 et 94,2 respectivement sur ACE2004, ACE2005 et NNE.