HyperAIHyperAI
vor 17 Tagen

BanglaCoNER: Hin zu einer robusten Erkennung komplexer benannter Entitäten im Bangla

HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam
BanglaCoNER: Hin zu einer robusten Erkennung komplexer benannter Entitäten im Bangla
Abstract

Named Entity Recognition (NER) ist eine grundlegende Aufgabe im Bereich der natürlichen Sprachverarbeitung, die darin besteht, benannte Entitäten in Texten zu identifizieren und zu klassifizieren. Dennoch wurde bisher wenig Forschungsarbeit im Bereich der komplexen Named Entity Recognition (CNER) für die bangladeschsprachige Texte unternommen, obwohl Bangla weltweit die siebthäufigst gesprochene Sprache ist. Die CNER-Aufgabe ist anspruchsvoller als die traditionelle NER, da sie die Erkennung und Klassifizierung komplexer und zusammengesetzter Entitäten erfordert, die im Bangla-Sprachraum selten vorkommen. In dieser Arbeit präsentieren wir die Gewinnerlösung des Bangla Complex Named Entity Recognition Challenge – eine Lösung für die CNER-Aufgabe auf dem BanglaCoNER-Datensatz, die zwei unterschiedliche Ansätze nutzt: Conditional Random Fields (CRF) und das Fine-Tuning transformerbasierter Deep-Learning-Modelle wie BanglaBERT.Der Datensatz umfasste 15.300 Sätze für das Training und 800 Sätze für die Validierung im .conll-Format. Eine explorative Datenanalyse (Exploratory Data Analysis, EDA) ergab, dass der Datensatz sieben verschiedene NER-Tags aufwies, wobei englische Wörter deutlich präsent waren. Dies deutet darauf hin, dass der Datensatz synthetisch erzeugt wurde und wahrscheinlich durch maschinelle Übersetzung entstanden ist.Wir testeten eine Vielzahl von Merkmalskombinationen, darunter Part-of-Speech-(POS)-Tags, Wortendungen, Gazetteer-Informationen sowie Clusterinformationen aus Embeddings, zusätzlich zum Fine-Tuning des BanglaBERT (large)-Modells für die NER-Aufgabe. Dabei zeigte sich, dass nicht alle sprachlichen Muster unmittelbar erkennbar oder intuitiv für Menschen sind – weshalb Deep-Learning-Modelle sich in der NLP, einschließlich der CNER-Aufgabe, als überlegen erwiesen haben. Unser finegetuntes BanglaBERT (large)-Modell erreichte auf dem Validierungssatz einen F1-Score von 0,79. Insgesamt unterstreicht unsere Studie die Bedeutung der Bangla-Complex-Named-Entity-Recognition, insbesondere im Kontext synthetischer Datensätze. Unsere Ergebnisse demonstrieren zudem die Wirksamkeit von Deep-Learning-Modellen wie BanglaBERT für die Named Entity Recognition in der Bangla-Sprache.

BanglaCoNER: Hin zu einer robusten Erkennung komplexer benannter Entitäten im Bangla | Neueste Forschungsarbeiten | HyperAI