il y a 17 jours

Régularisation pour la reconnaissance d'entités nommées longues

Minbyul Jeong, Jaewoo Kang

Résumé

Lors de la reconnaissance d’entités nommées (NER), la longueur des entités est variable et dépend du domaine ou du jeu de données considéré. Les modèles linguistiques pré-entraînés (PLMs) sont couramment utilisés pour résoudre les tâches de NER, mais ils présentent souvent un biais envers les caractéristiques propres aux jeux de données, telles que les statistiques de longueur, les formes superficielles ou la distribution déséquilibrée des classes. Ces biais limitent la capacité de généralisation des PLMs, qui est essentielle pour traiter de nombreuses mentions inconnues dans des situations réelles. Nous proposons une nouvelle méthode de débiaisage, RegLER, visant à améliorer la prédiction des entités de longueurs variées. Pour réduire l’écart entre l’évaluation en laboratoire et les conditions réelles, nous avons évalué les PLMs sur des jeux de données de référence partitionnés, incluant des ensembles de mentions inédites. Résultat : RegLER montre une amélioration significative pour les entités longues, notamment grâce à une débiaisation efficace des conjonctions ou caractères spéciaux présents dans les entités. Par ailleurs, la majorité des jeux de données de NER souffrent d’un déséquilibre sévère entre les classes, entraînant une domination des exemples « faciles-négatifs » durant l’entraînement, comme le mot « The ». Notre approche atténue ce déséquilibre en réduisant l’impact de ces exemples faciles. Des expériences étendues menées sur des domaines biomédicaux et généraux démontrent la capacité de généralisation de notre méthode. Pour favoriser la reproductibilité et les travaux futurs, nous mettons à disposition notre code source à l’adresse suivante : https://github.com/minstar/RegLER.