Réseau de Requête d'Instances Parallèles pour la Reconnaissance d'Entités Nommées

La reconnaissance d'entités nommées (NER) est une tâche fondamentale en traitement automatique des langues naturelles. Des travaux récents abordent la reconnaissance d'entités nommées comme une tâche de compréhension de lecture, construisant manuellement des requêtes spécifiques à chaque type pour extraire les entités. Ce paradigme souffre de trois problèmes. Premièrement, les requêtes spécifiques à chaque type ne peuvent extraire qu'un seul type d'entités par inférence, ce qui est inefficace. Deuxièmement, l'extraction d'entités de différents types est isolée, ignorant les dépendances entre elles. Troisièmement, la construction des requêtes repose sur des connaissances externes et est difficile à appliquer dans des scénarios réalistes comportant plusieurs centaines de types d'entités. Pour remédier à ces problèmes, nous proposons le Réseau de Requêtes d'Instances Parallèles (PIQN), qui établit des requêtes d'instances globales et apprises pour extraire les entités d'une phrase de manière parallèle. Chaque requête d'instance prédit une entité, et en alimentant simultanément toutes les requêtes d'instances, nous pouvons interroger toutes les entités en parallèle. Au lieu d'être construites à partir de connaissances externes, les requêtes d'instances peuvent apprendre leurs différentes sémantiques de requête au cours de l'apprentissage. Pour entraîner le modèle, nous traitons l'affectation des étiquettes comme un problème linéaire d'affectation (LAP) un-à-plusieurs et affectons dynamiquement les entités dorées aux requêtes d'instances avec un coût minimal d'affectation. Les expériences menées sur des jeux de données NER imbriqués et plats montrent que notre méthode proposée surpasse les modèles précédents considérés comme l'état de l'art.Note: "Nested and flat NER datasets" a été traduit par "jeux de données NER imbriqués et plats". En français, on utilise souvent "imbriqué" pour "nested" dans le contexte des entités nommées imbriquées (où une entité peut contenir une autre). Le terme "flat" a été conservé car il est couramment utilisé pour désigner les jeux de données où les entités ne sont pas imbriquées.