Start, Follow, Read: End-to-End Full-Page Handwriting Recognition

Trotz mehrerer Jahrzehnte Forschung bleibt die Offline-Handschriftenerkennung (HWR) in beschädigten historischen Dokumenten ein herausforderndes Problem, dessen Lösung die Suchbarkeit von Online-Archiven kulturellen Erbes erheblich verbessern könnte. HWR-Modelle sind oft durch die Genauigkeit der vorhergehenden Schritte der Textdetektion und -segmentierung begrenzt. Aus diesem Anlass präsentieren wir ein tiefes Lernmodell, das Textdetektion, Segmentierung und Erkennung gemeinsam lernt, wobei hauptsächlich Bilder ohne Detektions- oder Segmentierungsannotierungen verwendet werden. Unser SFR-Modell (Start, Follow, Read) besteht aus einem Region Proposal Network zur Identifizierung der Startposition von Textzeilen sowie einem neuartigen Line-Follower-Netzwerk, das Textzeilen schrittweise verfolgt und vorverarbeitet – auch bei möglicherweise gekrümmten Texten – und sie in entworfene Bilder umwandelt, die für die Erkennung durch ein CNN-LSTM-Netzwerk geeignet sind. Das SFR-Modell übertrifft die Leistung des Siegers des ICDAR2017-Wettbewerbs zur Handschriftenerkennung, selbst wenn die bereitgestellten Wettbewerbsregionen nicht genutzt werden.