Formrobuste Texterkennung mit Progressiver Skalenerweiterungsnetzwerk

Die Erkennung von Szene-Texten hat in den letzten Jahren, insbesondere mit der jüngsten Entwicklung von Faltungsneuronalen Netzen (Convolutional Neural Networks), rasche Fortschritte gemacht. Dennoch gibt es zwei Herausforderungen, die eine Integration des Algorithmus in industrielle Anwendungen verhindern. Zum einen benötigen die meisten der neuesten Algorithmen ein Quadrilateral-Bounding-Box-Modell, das nicht präzise genug ist, um Texte beliebiger Form zu lokalisieren. Zum anderen können sich zwei nahe beieinander liegende Textinstanzen zu einer fehlerhaften Erkennung führen, die beide Instanzen abdeckt. Traditionell kann der segmentierungsbasierte Ansatz das erste Problem lindern, scheitert aber meist daran, die zweite Herausforderung zu bewältigen. Um diese beiden Probleme anzugehen, schlagen wir in dieser Arbeit ein neuartiges Progressives Skalen-Erweiterungsnetzwerk (Progressive Scale Expansion Network, PSENet) vor, das Textinstanzen beliebiger Formen präzise erkennt. Genauer gesagt generiert PSENet für jede Textinstanz Kerne unterschiedlicher Größen und erweitert schrittweise den kleinsten Skalenkern auf die vollständige Form der Textinstanz. Aufgrund der großen geometrischen Abstände zwischen den kleinsten Skalenkernen ist unsere Methode effektiv bei der Trennung von benachbarten Textinstanzen und erleichtert so die Verwendung segmentierungsbasierter Methoden zur Erkennung von Textinstanzen beliebiger Form. Ausführliche Experimente auf CTW1500, Total-Text, ICDAR 2015 und ICDAR 2017 MLT bestätigen die Effektivität von PSENet. Bemerkenswerterweise erreicht PSENet auf CTW1500, einem Datensatz voller langer gekrümmter Texte, einen F-Wert von 74,3 % bei 27 FPS (Frames per Second). Unser bester F-Wert (82,2 %) übertrifft dabei die neuesten Algorithmen um 6,6 %. Der Code wird in Zukunft veröffentlicht werden.