HyperAIHyperAI
il y a 11 jours

Un cadre génératif unifié pour diverses sous-tâches de reconnaissance d'entités nommées

Hang Yan, Tao Gui, Junqi Dai, Qipeng Guo, Zheng Zhang, Xipeng Qiu
Un cadre génératif unifié pour diverses sous-tâches de reconnaissance d'entités nommées
Résumé

La reconnaissance d'entités nommées (NER) consiste à identifier dans une phrase les segments représentant des entités. Selon que les segments d'entités sont imbriqués ou discontinus, la tâche NER peut être divisée en trois sous-tâches : NER plat, NER imbriqué et NER discontinu. Ces sous-tâches ont principalement été résolues par des méthodes de labellisation de séquence au niveau des tokens ou de classification au niveau des segments. Toutefois, ces approches peinent à traiter simultanément les trois types de sous-tâches. Afin de surmonter cette limitation, nous proposons de formuler les sous-tâches NER comme une tâche de génération de séquence de segments d'entités, pouvant être résolue par un cadre unifié de type séquence à séquence (Seq2Seq). Grâce à notre cadre unifié, nous pouvons exploiter un modèle pré-entraîné de type Seq2Seq pour traiter les trois sous-tâches NER sans nécessiter de schéma de balisage spécifique ni de méthode particulière d'énumération des segments. Nous utilisons trois types de représentations d'entités afin de linéariser les entités en une séquence. Le cadre proposé est facile à implémenter et atteint des performances de pointe (SoTA) ou proches de la pointe sur huit jeux de données NER en anglais, incluant deux jeux pour le NER plat, trois pour le NER imbriqué et trois pour le NER discontinu.

Un cadre génératif unifié pour diverses sous-tâches de reconnaissance d'entités nommées | Articles de recherche récents | HyperAI