vor 2 Monaten

Sequenztagging mit kontextuellen und nicht-kontextuellen Subwortsdarstellungen: Eine mehrsprachige Evaluation

Benjamin Heinzerling; Michael Strube

Abstract

Vorab trainierte kontextuelle und nicht-kontextuelle Subword-Embeddings sind in über 250 Sprachen verfügbar geworden, was massiv multilinguale NLP ermöglicht. Allerdings erschwert der auffällige Mangel an systematischen Evaluierungen die Auswahl zwischen ihnen für Praktiker. In dieser Arbeit führen wir eine umfangreiche Bewertung durch, in der wir nicht-kontextuelle Subword-Embeddings, nämlich FastText und BPEmb, sowie eine kontextuelle Repräsentationsmethode, nämlich BERT, im multilingualen Named Entity Recognition (NER) und Part-of-Speech Tagging (POS-Tagging) vergleichen. Wir stellen fest, dass insgesamt eine Kombination aus BERT, BPEmb und Zeichendarstellungen sich als beste Wahl für verschiedene Sprachen und Aufgaben erweist. Eine detailliertere Analyse zeigt unterschiedliche Stärken und Schwächen auf: Multilingualer BERT zeichnet sich in Sprachen mit mittleren bis hohen Ressourcen durch gute Leistungen aus, wird aber in einem Low-Resource-Szenario von nicht-kontextuellen Subword-Embeddings übertroffen.