NER Universel : Un Étalon-Doré pour la Reconnaissance d'Entités Nommées Multilingue

Nous présentons Universal NER (UNER), un projet ouvert et impulsé par la communauté visant à développer des benchmarks d'NER de référence dans de nombreuses langues. L'objectif principal du UNER est de fournir des annotations de haute qualité et cohérentes interlinguistiquement afin de faciliter et de standardiser la recherche en NER multilingue. La version 1 du UNER comprend 18 jeux de données annotés avec des entités nommées selon un schéma cohérent interlinguistiquement, couvrant 12 langues diverses. Dans cet article, nous détaillons la création et la composition des jeux de données du UNER ; nous fournissons également des modèles initiaux de base pour les configurations d'apprentissage intra-langue et interlangue. Nous mettons à disposition les données, le code et les modèles ajustés au public.