HyperAIHyperAI
il y a 17 jours

HiNER : Un grand jeu de données pour la reconnaissance d'entités nommées en hindi

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER : Un grand jeu de données pour la reconnaissance d'entités nommées en hindi
Résumé

La reconnaissance d'entités nommées (Named Entity Recognition, NER) est une tâche fondamentale du traitement automatique du langage (NLP) dont l'objectif consiste à attribuer des étiquettes de catégorie, telles que Personne, Lieu, Organisation, Temps ou Nombre, aux mots présents dans un texte libre. Les entités nommées peuvent également être des expressions composées de plusieurs mots, pour lesquelles l'annotation supplémentaire I-O-B (Inside, Outside, Beginning) facilite leur étiquetage au cours du processus d'annotation NER. Bien que les langues anglaise et européennes disposent de quantités importantes de données annotées pour la tâche de NER, les langues indiennes en manquent à la fois en termes de volume et de conformité aux normes d'annotation. Ce papier présente un ensemble de données NER en hindi de taille significative, conforme aux standards, comprenant 109 146 phrases et 2 220 856 tokens, annotés avec 11 étiquettes. Nous détaillons exhaustivement les statistiques de cet ensemble de données et proposons une analyse approfondie du jeu d'étiquettes utilisé. Les statistiques du jeu d'étiquettes montrent une répartition équilibrée par catégorie, en particulier pour les classes les plus importantes telles que Personne, Lieu et Organisation. Puisque la preuve de l'efficacité d'une ressource réside dans sa capacité à permettre la construction de modèles performants, testés sur des données de référence et comparés aux résultats des leaders dans les défis partagés, nous procédons de même avec les données présentées ici. Nous utilisons divers modèles linguistiques pour effectuer la tâche d’étiquetage de séquence dans le cadre de la NER, et démontrons l’efficacité de nos données à travers une évaluation comparative avec des modèles entraînés sur un autre ensemble de données disponible pour la NER en hindi. Grâce à notre ensemble de données, nous atteignons un score F1 pondéré de 88,78 sur l’ensemble des étiquettes, et de 92,22 lorsque nous réduisons (collapsons) l’ensemble des étiquettes, comme expliqué dans le papier. À notre connaissance, aucun ensemble de données disponible ne réunit à ce jour les critères de volume (quantité) et de variabilité (diversité) requis pour la NER en hindi. Ce travail comble cette lacune, et nous espérons qu’il contribuera de manière significative au développement du NLP en hindi. Nous mettons cet ensemble de données, ainsi que le code et les modèles associés, à disposition sur GitHub à l’adresse suivante : https://github.com/cfiltnlp/HiNER