Command Palette
Search for a command to run...
Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache
Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache
Jakub Náplava Milan Straka Jana Straková
Zusammenfassung
Wir schlagen eine neue Architektur für die Wiederherstellung von Diakritika vor, die auf kontextualisierten Einbettungen basiert, insbesondere auf BERT. Diese Architektur wird an 12 Sprachen mit Diakritika evaluiert. Darüber hinaus führen wir eine detaillierte Fehlanalyse am Beispiel der Tschechischen Sprache durch, einer morphologisch reichen Sprache mit einem hohen Grad an Diakritisierung. Besonders erwähnenswert ist, dass wir alle Fehlvorhersagen manuell annotieren und zeigen, dass etwa 44% davon tatsächlich keine Fehler sind, sondern entweder plausiblen Varianten (19%) oder Systemkorrekturen fehlerhafter Daten (25%) entsprechen. Schließlich klassifizieren wir die tatsächlichen Fehler im Detail. Der Quellcode wird unter https://github.com/ufal/bert-diacritics-restoration veröffentlicht.