Mehrfach ausgerichtete Szentext-Erkennung durch Eckenlokalisation und Regionssegmentierung

Frühere auf tiefem Lernen basierende, state-of-the-art Methoden zur Erkennung von Szene-Text können grob in zwei Kategorien eingeteilt werden. Die erste Kategorie behandelt den Szene-Text als eine Art allgemeiner Objekte und folgt dem Paradigma der allgemeinen Objekterkennung, um die Position des Textes durch Regression der Textbox-Lokationen zu lokalisieren. Diese Methode gerät jedoch ins Stocken bei beliebigen Ausrichtungen und großen Seitenverhältnissen des Szene-Textes. Die zweite Kategorie segmentiert Textbereiche direkt, benötigt aber in der Regel komplexe Nachbearbeitungsschritte. In dieser Arbeit stellen wir eine Methode vor, die die Ideen beider Arten von Methoden kombiniert, während sie deren Nachteile vermeidet. Wir schlagen vor, Szene-Text durch Lokalisierung der Eckpunkte der Textbegrenzungsboxen und Segmentierung der Textbereiche in relativen Positionen zu erkennen. Im Inferenzstadium werden Kandidatenboxen durch Abtasten und Gruppieren von Eckpunkten generiert, die dann durch Segmentierungskarten bewertet und durch NMS unterdrückt werden. Verglichen mit früheren Methoden kann unsere Methode natürlicher mit langem, orientiertem Text umgehen und benötigt keine komplexen Nachbearbeitungsschritte. Experimente auf ICDAR2013, ICDAR2015, MSRA-TD500, MLT und COCO-Text zeigen, dass der vorgeschlagene Algorithmus sowohl in Bezug auf Genauigkeit als auch Effizienz bessere oder vergleichbare Ergebnisse erzielt. Basierend auf VGG16 erreicht er ein F-Maß von 84,3 % auf ICDAR2015 und 81,5 % auf MSRA-TD500.