vor 17 Tagen

RobeCzech: Czech RoBERTa, ein monolingualer kontextualisierter Sprachrepräsentationsmodell

Milan Straka, Jakub Náplava, Jana Straková, David Samuel

Abstract

Wir präsentieren RobeCzech, ein monolinguales RoBERTa-Sprachrepräsentationsmodell, das auf tschechischen Daten trainiert wurde. RoBERTa ist ein robust optimierter, auf Transformer basierender Ansatz für die Vortrainierung. Wir zeigen, dass RobeCzech gleichermaßen große mehrsprachige sowie tschechisch trainierte kontextuelle Sprachrepräsentationsmodelle erheblich übertrifft, die derzeitige State-of-the-Art-Leistung in allen fünf evaluierten NLP-Aufgaben erreicht und in vier davon sogar die State-of-the-Art-Ergebnisse erzielt. Das RobeCzech-Modell wird öffentlich unter https://hdl.handle.net/11234/1-3691 und https://huggingface.co/ufal/robeczech-base bereitgestellt.