HyperAIHyperAI
vor 17 Tagen

HiNER: Ein großes Hindi-Datensatz für benannte Entitäten

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER: Ein großes Hindi-Datensatz für benannte Entitäten
Abstract

Named Entity Recognition (NER) ist eine grundlegende Aufgabe der natürlichen Sprachverarbeitung (NLP), die darauf abzielt, Wörtern in freier Textform Klassenbezeichnungen wie Person, Ort, Organisation, Zeit und Zahl zuzuweisen. Benannte Entitäten können auch mehrwortige Ausdrücke sein, wobei die zusätzliche I-O-B-Annotation-Information bei der NER-Annotierung hilft, diese korrekt zu kennzeichnen. Während für englische und europäische Sprachen beträchtliche annotierte Datensätze für die NER-Aufgabe vorliegen, fehlen solche Ressourcen für indische Sprachen – sowohl hinsichtlich der Menge als auch der Einhaltung standardisierter Annotierungsrichtlinien. In dieser Arbeit veröffentlichen wir einen signifikant großen, standardsicheren Hindi-NER-Datensatz mit 109.146 Sätzen und 2.220.856 Tokens, der mit 11 Tags annotiert ist. Wir diskutieren die Datensatzstatistiken im Detail und bieten eine umfassende Analyse des für unsere Daten verwendeten NER-Tag-Sets. Die Statistiken des Tag-Sets zeigen eine ausgewogene Verteilung pro Tag, insbesondere für prominente Klassen wie Person, Ort und Organisation. Da der Nachweis der Ressourceneffektivität darin besteht, Modelle mit der Ressource zu trainieren und diese anschließend auf Benchmark-Daten sowie gegenüber den führenden Einträgen in gemeinsamen Wettbewerbsaufgaben zu testen, führen wir dies ebenfalls mit dem oben genannten Datensatz durch. Wir nutzen verschiedene Sprachmodelle, um die Sequenzmarkierungsaufgabe für die NER durchzuführen, und zeigen die Wirksamkeit unseres Datensatzes durch eine vergleichende Evaluation mit Modellen, die auf einem anderen für die Hindi-NER-Aufgabe verfügbaren Datensatz trainiert wurden. Unser Datensatz ermöglicht eine gewichtete F1-Score von 88,78 bei allen Tags und 92,22, wenn das Tag-Set wie im Paper diskutiert zusammengefasst wird. Sofern wir wissen, existiert kein bisher verfügbarer Datensatz, der in Bezug auf Volumen (Menge) und Variabilität (Vielfalt) die Anforderungen für die Hindi-NER-Aufgabe erfüllt. Wir schließen diese Lücke mit dieser Arbeit, die wir hoffen, wird die NLP-Forschung für Hindi erheblich voranbringen. Wir stellen diesen Datensatz gemeinsam mit unserem Code und den Modellen unter https://github.com/cfiltnlp/HiNER zur Verfügung.

HiNER: Ein großes Hindi-Datensatz für benannte Entitäten | Neueste Forschungsarbeiten | HyperAI