HyperAIHyperAI
vor 2 Monaten

Die Bewertung kontextualisierter Einbettungen in 54 Sprachen bei der Teil-of-Speech-Tagging, Lemmatisierung und Abhängigkeitsanalyse

Milan Straka; Jana Straková; Jan Hajič
Die Bewertung kontextualisierter Einbettungen in 54 Sprachen bei der Teil-of-Speech-Tagging, Lemmatisierung und Abhängigkeitsanalyse
Abstract

Wir präsentieren eine umfangreiche Bewertung dreier kürzlich vorgeschlagener Methoden für kontextualisierte Einbettungen (embeddings) auf 89 Korpora in 54 Sprachen des Universal Dependencies 2.3 in drei Aufgaben: Part-of-Speech-Tagging, Lemmatisierung und Abhängigkeitsanalyse. Indem wir BERT, Flair und ELMo als vortrainierte Einbettungs-Eingaben in einem starken Baseline-Modell von UDPipe 2.0 einsetzen, das zu den besten Systemen der CoNLL 2018 Shared Task gehört und insgesamt Gewinner des EPE 2018 war, führen wir einen direkten Vergleich der drei kontextualisierten Wort-Einbettungs-Methoden durch. Darüber hinaus vergleichen wir diese Methoden mit word2vec-ähnlichen vortrainierten Einbettungen sowie mit end-to-end charakterbasierten Wort-Einbettungen. Wir berichten über Stand-of-the-Art-Ergebnisse in allen drei Aufgaben im Vergleich zu den Ergebnissen auf UD 2.2 aus der CoNLL 2018 Shared Task.

Die Bewertung kontextualisierter Einbettungen in 54 Sprachen bei der Teil-of-Speech-Tagging, Lemmatisierung und Abhängigkeitsanalyse | Neueste Forschungsarbeiten | HyperAI