SPAN: Eine einfache Predict- und Align-Netzwerk für die Erkennung handschriftlicher Absätze

Die unbeschränkte Handschriftenerkennung ist eine zentrale Aufgabe in der Dokumentenanalyse. Sie wird üblicherweise in zwei Schritten durchgeführt: Zunächst wird das Dokument in Textzeilen segmentiert, anschließend wird ein Optical Character Recognition (OCR)-Modell auf diese Zeilenbilder angewendet. Wir stellen das Simple Predict & Align Network (SPAN) vor: ein end-to-end, rekursionsfreies vollständig konvolutionales Netzwerk, das OCR auf Absatzebene durchführt, ohne eine vorherige Segmentierung zu erfordern. Der Ansatz ist so einfach wie derjenige für die Erkennung isolierter Zeilen, und wir erzielen wettbewerbsfähige Ergebnisse auf drei etablierten Datensätzen: RIMES, IAM und READ 2016. Das vorgeschlagene Modell benötigt keine Datensatzanpassung, kann von Grund auf ohne Segmentierungslabels trainiert werden und erfordert keine Zeilenumbrüche in den Transkriptionslabels. Der Quellcode und die trainierten Modellgewichte sind unter https://github.com/FactoDeepLearning/SPAN verfügbar.