Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache

Wir schlagen eine neue Architektur für die Wiederherstellung von Diakritika vor, die auf kontextualisierten Einbettungen basiert, insbesondere auf BERT. Diese Architektur wird an 12 Sprachen mit Diakritika evaluiert. Darüber hinaus führen wir eine detaillierte Fehlanalyse am Beispiel der Tschechischen Sprache durch, einer morphologisch reichen Sprache mit einem hohen Grad an Diakritisierung. Besonders erwähnenswert ist, dass wir alle Fehlvorhersagen manuell annotieren und zeigen, dass etwa 44% davon tatsächlich keine Fehler sind, sondern entweder plausiblen Varianten (19%) oder Systemkorrekturen fehlerhafter Daten (25%) entsprechen. Schließlich klassifizieren wir die tatsächlichen Fehler im Detail. Der Quellcode wird unter https://github.com/ufal/bert-diacritics-restoration veröffentlicht.