HyperAIHyperAI

Command Palette

Search for a command to run...

Sequenztagging mit kontextuellen und nicht-kontextuellen Subwortsdarstellungen: Eine mehrsprachige Evaluation

Benjamin Heinzerling Michael Strube

Zusammenfassung

Vorab trainierte kontextuelle und nicht-kontextuelle Subword-Embeddings sind in über 250 Sprachen verfügbar geworden, was massiv multilinguale NLP ermöglicht. Allerdings erschwert der auffällige Mangel an systematischen Evaluierungen die Auswahl zwischen ihnen für Praktiker. In dieser Arbeit führen wir eine umfangreiche Bewertung durch, in der wir nicht-kontextuelle Subword-Embeddings, nämlich FastText und BPEmb, sowie eine kontextuelle Repräsentationsmethode, nämlich BERT, im multilingualen Named Entity Recognition (NER) und Part-of-Speech Tagging (POS-Tagging) vergleichen. Wir stellen fest, dass insgesamt eine Kombination aus BERT, BPEmb und Zeichendarstellungen sich als beste Wahl für verschiedene Sprachen und Aufgaben erweist. Eine detailliertere Analyse zeigt unterschiedliche Stärken und Schwächen auf: Multilingualer BERT zeichnet sich in Sprachen mit mittleren bis hohen Ressourcen durch gute Leistungen aus, wird aber in einem Low-Resource-Szenario von nicht-kontextuellen Subword-Embeddings übertroffen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp