vor 3 Monaten

Analyse kontextueller und nicht-kontextueller Wort-Embedding-Modelle für die Hindi-NER mit Web-Anwendung zur Datensammlung

{Soman KP‡, Premjith B, Thara.S, Aindriya Barua}

Details der Forschungsarbeit anzeigen View Code

Analyse kontextueller und nicht-kontextueller Wort-Embedding-Modelle für die Hindi-NER mit Web-Anwendung zur Datensammlung

Abstract

Die Named Entity Recognition (NER) ist der Prozess, bei dem aus einem Text relevante Eigennamen identifiziert werden. In diesem Artikel berichten wir über die Entwicklung eines NER-Systems für die hindi-Sprache in der Devanagari-Schrift unter Verwendung verschiedener Embedding-Modelle. Wir gliedern die Embeddings in kontextuelle und nicht-kontextuelle Typen und vergleichen diese sowohl innerhalb als auch zwischen den Kategorien. Bei den nicht-kontextuellen Embeddings testen wir Word2Vec und FastText, während wir bei den kontextuellen Embeddings BERT und dessen Varianten – nämlich RoBERTa, ELECTRA, CamemBERT, Distil-BERT und XLM-RoBERTa – einsetzen. Für die nicht-kontextuellen Embeddings verwenden wir fünf maschinelle Lernalgorithmen: Gaussian NB, Adaboost-Klassifikator, Multi-Layer Perceptron-Klassifikator, Random Forest-Klassifikator und Entscheidungsbaum-Klassifikator, um jeweils zehn Hindi-NER-Systeme zu entwickeln – einmal mit FastText und einmal mit Gensim Word2Vec. Diese Modelle werden anschließend mit Transformer-basierten kontextuellen NER-Modellen, die auf BERT und dessen Varianten beruhen, verglichen. Es wird eine umfassende vergleichende Studie aller dieser NER-Modelle durchgeführt. Schließlich wird das beste aller Modelle ausgewählt, und eine Webanwendung erstellt, die beliebige Hindi-Texte beliebiger Länge entgegennimmt und für jedes Wort die entsprechenden NER-Tags zurückgibt. Zudem ermöglicht die Anwendung die Benutzerfeedbacks zur Korrektheit der Tags. Diese Rückmeldungen unterstützen unsere weitere Datensammlung.