HyperAIHyperAI
vor 17 Tagen

Analyse kontextueller und nicht-kontextueller Wort-Embedding-Modelle für die Hindi-NER mit Web-Anwendung zur Datensammlung

{Soman KP‡, Premjith B, Thara.S, Aindriya Barua}
Abstract

Die Named Entity Recognition (NER) ist der Prozess, bei dem aus einem Text relevante Eigennamen identifiziert werden. In diesem Artikel berichten wir über die Entwicklung eines NER-Systems für die hindi-Sprache in der Devanagari-Schrift unter Verwendung verschiedener Embedding-Modelle. Wir gliedern die Embeddings in kontextuelle und nicht-kontextuelle Typen und vergleichen diese sowohl innerhalb als auch zwischen den Kategorien. Bei den nicht-kontextuellen Embeddings testen wir Word2Vec und FastText, während wir bei den kontextuellen Embeddings BERT und dessen Varianten – nämlich RoBERTa, ELECTRA, CamemBERT, Distil-BERT und XLM-RoBERTa – einsetzen. Für die nicht-kontextuellen Embeddings verwenden wir fünf maschinelle Lernalgorithmen: Gaussian NB, Adaboost-Klassifikator, Multi-Layer Perceptron-Klassifikator, Random Forest-Klassifikator und Entscheidungsbaum-Klassifikator, um jeweils zehn Hindi-NER-Systeme zu entwickeln – einmal mit FastText und einmal mit Gensim Word2Vec. Diese Modelle werden anschließend mit Transformer-basierten kontextuellen NER-Modellen, die auf BERT und dessen Varianten beruhen, verglichen. Es wird eine umfassende vergleichende Studie aller dieser NER-Modelle durchgeführt. Schließlich wird das beste aller Modelle ausgewählt, und eine Webanwendung erstellt, die beliebige Hindi-Texte beliebiger Länge entgegennimmt und für jedes Wort die entsprechenden NER-Tags zurückgibt. Zudem ermöglicht die Anwendung die Benutzerfeedbacks zur Korrektheit der Tags. Diese Rückmeldungen unterstützen unsere weitere Datensammlung.