HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse kontextueller und nicht-kontextueller Wort-Embedding-Modelle für die Hindi-NER mit Web-Anwendung zur Datensammlung

Soman KP‡ Premjith B Thara.S Aindriya Barua

Zusammenfassung

Die Named Entity Recognition (NER) ist der Prozess, bei dem aus einem Text relevante Eigennamen identifiziert werden. In diesem Artikel berichten wir über die Entwicklung eines NER-Systems für die hindi-Sprache in der Devanagari-Schrift unter Verwendung verschiedener Embedding-Modelle. Wir gliedern die Embeddings in kontextuelle und nicht-kontextuelle Typen und vergleichen diese sowohl innerhalb als auch zwischen den Kategorien. Bei den nicht-kontextuellen Embeddings testen wir Word2Vec und FastText, während wir bei den kontextuellen Embeddings BERT und dessen Varianten – nämlich RoBERTa, ELECTRA, CamemBERT, Distil-BERT und XLM-RoBERTa – einsetzen. Für die nicht-kontextuellen Embeddings verwenden wir fünf maschinelle Lernalgorithmen: Gaussian NB, Adaboost-Klassifikator, Multi-Layer Perceptron-Klassifikator, Random Forest-Klassifikator und Entscheidungsbaum-Klassifikator, um jeweils zehn Hindi-NER-Systeme zu entwickeln – einmal mit FastText und einmal mit Gensim Word2Vec. Diese Modelle werden anschließend mit Transformer-basierten kontextuellen NER-Modellen, die auf BERT und dessen Varianten beruhen, verglichen. Es wird eine umfassende vergleichende Studie aller dieser NER-Modelle durchgeführt. Schließlich wird das beste aller Modelle ausgewählt, und eine Webanwendung erstellt, die beliebige Hindi-Texte beliebiger Länge entgegennimmt und für jedes Wort die entsprechenden NER-Tags zurückgibt. Zudem ermöglicht die Anwendung die Benutzerfeedbacks zur Korrektheit der Tags. Diese Rückmeldungen unterstützen unsere weitere Datensammlung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Analyse kontextueller und nicht-kontextueller Wort-Embedding-Modelle für die Hindi-NER mit Web-Anwendung zur Datensammlung | Paper | HyperAI