OrigamiNet: Schwach beschriftete, segmentierungsfreie, einstufige, vollseitige Texterkennung durch Lernen des Ausfaltens

Texterkennung ist eine zentrale Aufgabe im Bereich des Computersehens mit einer Vielzahl verbundener Herausforderungen. Eine der klassischen Schwierigkeiten stellt die verknüpfte Natur von Texterkennung und Segmentierung dar. Dieses Problem wurde in den vergangenen Jahrzehnten sukzessive gelöst, wobei man von segmentierungsabhängigen Ansätzen zu segmentierungsfreien Methoden überging, die sich als genauer und deutlich kostengünstiger bei der Datenannotation erwiesen. Wir gehen einen Schritt weiter von der segmentierungsfreien Einzeilen-Erkennung hin zu segmentierungsfreier Mehrzeilen- bzw. Vollseiten-Erkennung. Wir stellen ein neuartiges und einfaches neuronales Netzwerk-Modul vor, das als \textbf{OrigamiNet} bezeichnet wird und jedes CTC-trainierte, vollständig konvolutionale Einzeilen-Texterkenners erweitern kann, um es in eine Mehrzeilen-Version umzuwandeln. Dazu wird dem Modell ausreichende räumliche Kapazität bereitgestellt, um ein 2D-Eingabesignal effizient und informationsgetreu in ein 1D-Signal zu komprimieren. Solche modifizierten Netzwerke können exakt mit dem ursprünglichen einfachen Trainingsverfahren und ausschließlich mit \textbf{nicht segmentierten} Bild- und Textpaaren trainiert werden. Wir führen eine Reihe von Interpretierbarkeitsexperimenten durch, die zeigen, dass unsere trainierten Modelle eine präzise implizite Zeilensegmentierung erlernen. Wir erreichen den Stand der Technik bezüglich der Zeichenfehlerrate sowohl auf den IAM- als auch auf den ICDAR 2017 HTR-Benchmarks für Handschrifterkennung und übertreffen damit alle anderen Methoden in der Literatur. Auf dem IAM-Datensatz übertreffen wir sogar Einzeilen-Methoden, die während des Trainings präzise Lokalisationsinformationen nutzen. Unser Quellcode ist online unter \url{https://github.com/IntuitionMachines/OrigamiNet} verfügbar.