Command Palette
Search for a command to run...
Volle Seiten-Handschriftenerkennung mittels Bild-zu-Sequenz-Extraktion
Volle Seiten-Handschriftenerkennung mittels Bild-zu-Sequenz-Extraktion
Sumeet S. Singh Sergey Karayev
Zusammenfassung
Wir präsentieren eine auf neuronalen Netzen basierende Architektur für die Erkennung handschriftlichen Textes (Handwritten Text Recognition, HTR), die trainiert werden kann, um ganze Seiten handschriftlichen oder gedruckten Textes ohne Bildsegmentierung zu erkennen. Aufgrund ihrer Image-to-Sequence-Architektur kann das Modell Textelemente innerhalb eines Bildes extrahieren und diese korrekt sequenzieren, ohne Einschränkungen hinsichtlich Orientierung, Layout oder Größe von Text- und Nicht-Text-Bereichen zu erfordern. Zudem kann das Modell zusätzlich zur Texterkennung auch zusätzliche Markup-Informationen hinsichtlich Formatierung, Layout und Inhalt generieren. Durch die Verwendung eines zeichenbasierten Vokabulars wird die Erkennung von Sprache und Fachterminologie beliebiger Themenbereiche ermöglicht. Das Modell erreicht eine neue State-of-the-Art-Leistung bei der Absatz-Erkennung auf dem IAM-Datensatz. Bei der Bewertung von Scans realweltlicher, freiformiger handschriftlicher Antwortblätter – geprägt durch gekrümmte und schräge Linien, Zeichnungen, Tabellen, Mathematik-, Chemie- und andere Sonderzeichen – übertrifft es alle kommerziell verfügbaren HTR-Cloud-APIs. Die Architektur ist bereits in Produktion im Rahmen einer kommerziellen Webanwendung implementiert.