T-NER : Une bibliothèque Python complète pour la reconnaissance d'entités nommées basée sur les Transformers

La pré-formation des modèles linguistiques (LM) a permis des améliorations régulières sur de nombreuses tâches NLP en aval, notamment la reconnaissance d'entités nommées (NER). Dans cet article, nous présentons T-NER (Transformer-based Named Entity Recognition), une bibliothèque Python dédiée à la fine-tuning des LM pour la NER. Outre son utilité pratique, T-NER facilite l’étude et l’analyse de la capacité de généralisation trans-domaine et trans-linguistique des LM après fine-tuning sur des tâches de NER. Notre bibliothèque inclut également une application web permettant aux utilisateurs d’obtenir des prédictions de modèle de manière interactive pour tout texte, ce qui facilite une évaluation qualitative des modèles par des programmeurs non spécialistes. Nous démontrons le potentiel de la bibliothèque en consolidant neuf jeux de données publics de NER dans un format unifié, puis en évaluant la performance trans-domaine et trans-linguistique sur ces données. Les résultats de nos premiers expérimentations montrent que la performance dans le domaine cible est généralement compétitive à travers les différents jeux de données. Toutefois, la généralisation trans-domaine demeure un défi, même avec un grand modèle pré-entraîné, qui possède néanmoins la capacité d’apprendre des caractéristiques spécifiques au domaine si celui-ci est fine-tuné sur un jeu de données combiné. Pour favoriser les recherches futures, nous mettons également à disposition tous nos points de contrôle (checkpoints) de modèles via le Hugging Face Model Hub.