HyperAI

Zusammenfassung

Wir schlagen eine neue Architektur für die Wiederherstellung von Diakritika vor, die auf kontextualisierten Einbettungen basiert, insbesondere auf BERT. Diese Architektur wird an 12 Sprachen mit Diakritika evaluiert. Darüber hinaus führen wir eine detaillierte Fehlanalyse am Beispiel der Tschechischen Sprache durch, einer morphologisch reichen Sprache mit einem hohen Grad an Diakritisierung. Besonders erwähnenswert ist, dass wir alle Fehlvorhersagen manuell annotieren und zeigen, dass etwa 44% davon tatsächlich keine Fehler sind, sondern entweder plausiblen Varianten (19%) oder Systemkorrekturen fehlerhafter Daten (25%) entsprechen. Schließlich klassifizieren wir die tatsächlichen Fehler im Detail. Der Quellcode wird unter https://github.com/ufal/bert-diacritics-restoration veröffentlicht.

Zusammenfassung

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wiederherstellung von Diakritika unter Verwendung von BERT mit Analyse der tschechischen Sprache

Jakub Náplava Milan Straka Jana Straková

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters