Command Palette
Search for a command to run...
BanglaCoNER : Vers une reconnaissance robuste des entités nommées complexes en bangla
BanglaCoNER : Vers une reconnaissance robuste des entités nommées complexes en bangla
HAZ Sameen Shahgir Ramisa Alam Md. Zarif Ul Alam
Résumé
La reconnaissance d'entités nommées (NER) est une tâche fondamentale en traitement du langage naturel, consistant à identifier et à classer les entités nommées dans un texte. Cependant, peu de travaux ont été menés sur la reconnaissance d'entités nommées complexes en bangla, malgré le fait que cette langue soit la septième plus parlée au monde. La tâche de reconnaissance d'entités complexes (CNER) est plus exigeante que la NER traditionnelle, car elle implique l'identification et la classification d'entités complexes et composées, peu fréquentes dans la langue bangla. Dans ce papier, nous présentons la solution gagnante du défi de reconnaissance d'entités nommées complexes en bangla — abordant la tâche CNER sur le jeu de données BanglaCoNER à l’aide de deux approches distinctes : les champs aléatoires conditionnels (CRF) et le fine-tuning de modèles d’apprentissage profond basés sur des transformateurs, tels que BanglaBERT.Le jeu de données comprenait 15 300 phrases pour l’entraînement et 800 phrases pour la validation, au format .conll. L’analyse exploratoire des données (EDA) a révélé que le jeu de données comportait 7 balises différentes pour la NER, avec une présence notable de mots anglais, suggérant que le jeu de données est synthétique et probablement issu d’une traduction.Nous avons expérimenté diverses combinaisons de caractéristiques, notamment les étiquettes de part-of-speech (POS), les suffixes de mots, les gazetteers et les informations de regroupement issues des embeddings, tout en fine-tunant le modèle BanglaBERT (version large) pour la tâche de NER. Nous avons constaté que toutes les structures linguistiques ne sont pas immédiatement perceptibles ou intuitives pour les humains, ce qui explique pourquoi les modèles fondés sur l’apprentissage profond se sont révélés plus efficaces dans le domaine du traitement du langage naturel, y compris pour la tâche CNER. Notre modèle BanglaBERT (large) fine-tuné atteint un score F1 de 0,79 sur l’ensemble de validation. Globalement, cette étude met en évidence l’importance de la reconnaissance d’entités nommées complexes en bangla, notamment dans le contexte de jeux de données synthétiques. Nos résultats démontrent également l’efficacité des modèles d’apprentissage profond tels que BanglaBERT pour la NER en langue bangla.