Architectures neuronales pour la reconnaissance d'entités nommées imbriquées par linéarisation

Nous proposons deux architectures de réseaux de neurones pour la reconnaissance d'entités nommées imbriquées (NER), un contexte dans lequel les entités nommées peuvent se chevaucher et être étiquetées avec plus d'une étiquette. Nous codons les étiquettes imbriquées à l'aide d'un schéma linéarisé. Dans notre première approche, les étiquettes imbriquées sont modélisées comme des multietiquettes correspondant au produit cartésien des étiquettes imbriquées dans une architecture LSTM-CRF standard. Dans la deuxième approche, la NER imbriquée est considérée comme un problème de séquence à séquence, où la séquence d'entrée est constituée des jetons et la séquence de sortie des étiquettes, en utilisant une attention forte sur le mot dont l'étiquette est prédite. Les méthodes proposées surpassent l'état de l'art en NER imbriquée sur quatre corpus : ACE-2004, ACE-2005, GENIA et CNEC tchèque. Nous enrichissons également nos architectures avec les plongements contextuels récemment publiés : ELMo, BERT et Flair, obtenant ainsi des améliorations supplémentaires pour les quatre corpus d'entités nommées imbriquées. De plus, nous rapportons des résultats de pointe en NER simple pour le néerlandais et l'espagnol du CoNLL-2002 et pour l'anglais du CoNLL-2003.