Command Palette
Search for a command to run...
RobeCzech: Czech RoBERTa, ein monolingualer kontextualisierter Sprachrepräsentationsmodell
RobeCzech: Czech RoBERTa, ein monolingualer kontextualisierter Sprachrepräsentationsmodell
Milan Straka Jakub Náplava Jana Straková David Samuel
Zusammenfassung
Wir präsentieren RobeCzech, ein monolinguales RoBERTa-Sprachrepräsentationsmodell, das auf tschechischen Daten trainiert wurde. RoBERTa ist ein robust optimierter, auf Transformer basierender Ansatz für die Vortrainierung. Wir zeigen, dass RobeCzech gleichermaßen große mehrsprachige sowie tschechisch trainierte kontextuelle Sprachrepräsentationsmodelle erheblich übertrifft, die derzeitige State-of-the-Art-Leistung in allen fünf evaluierten NLP-Aufgaben erreicht und in vier davon sogar die State-of-the-Art-Ergebnisse erzielt. Das RobeCzech-Modell wird öffentlich unter https://hdl.handle.net/11234/1-3691 und https://huggingface.co/ufal/robeczech-base bereitgestellt.