il y a 17 jours

En se concentrant sur les entités nommées potentielles lors de l'acquisition active d'étiquettes

Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi

Résumé

La reconnaissance d'entités nommées (NER) vise à identifier les mentions d'entités nommées dans un texte non structuré et à les classer dans des catégories prédéfinies d'entités nommées. Bien que les modèles pré-entraînés basés sur l'apprentissage profond permettent d'obtenir de bonnes performances prédictives en NER, de nombreuses applications NER spécifiques à un domaine nécessitent encore une quantité importante de données étiquetées. L'apprentissage actif (AL), un cadre général pour le problème d'acquisition d'étiquettes, a été appliqué aux tâches de NER afin de réduire le coût d'annotation sans compromettre les performances du modèle. Toutefois, la forte déséquilibre de distribution des classes parmi les tokens pose des défis pour concevoir des méthodes efficaces de requête dans le cadre de l'apprentissage actif pour la NER. Nous proposons plusieurs fonctions d'évaluation de requête de phrases qui accordent une attention accrue aux tokens potentiellement positifs, et évaluons ces fonctions proposées selon des stratégies d'évaluation du coût basées sur les phrases ou les tokens. Nous introduisons également une approche améliorée de normalisation fondée sur les données, visant à pénaliser les phrases trop courtes ou trop longues. Nos expériences menées sur trois jeux de données provenant de domaines différents montrent que l'approche proposée réduit le nombre de tokens annotés tout en atteignant des performances prédictives meilleures ou comparables à celles des méthodes classiques.