TextBoxes++: Ein Single-Shot-Verfahren zur Erkennung von orientiertem Szene-Text

Die Erkennung von Szene-Text ist ein wichtiger Schritt im System zur Erkennung von Szene-Text und stellt auch eine herausfordernde Aufgabe dar. Im Gegensatz zur allgemeinen Objekterkennung liegen die Hauptherausforderungen der Szene-Text-Erkennung in den beliebigen Orientierungen, kleinen Größen und stark variablen Seitenverhältnissen von Texten in natürlichen Bildern. In dieser Arbeit stellen wir einen end-to-end trainierbaren, schnellen Szene-Text-Detektor vor, der als TextBoxes++ bezeichnet wird. Dieser Detektor erkennt beliebig orientierten Szene-Text mit hoher Genauigkeit und Effizienz in einem einzigen Vorwärtsdurchgang des Netzes. Neben einer effizienten Non-Maximum-Suppression (NMS) werden keine weiteren Nachbearbeitungen durchgeführt. Wir haben den vorgeschlagenen TextBoxes++ auf vier öffentlichen Datensätzen evaluiert. In allen Experimenten übertrifft TextBoxes++ die konkurrierenden Methoden hinsichtlich der Textlokalisationsgenauigkeit und der Laufzeit. Spezieller gesagt erreicht TextBoxes++ bei 10241024 ICDAR 2015 zufälligen Textbildern einen F-Wert von 0,817 bei 11,6 fps und bei 768768 COCO-Text-Bildern einen F-Wert von 0,5591 bei 19,8 fps. Darüber hinaus übertreffen TextBoxes++, kombiniert mit einem Texterkennungsmodul, die bislang besten Ansätze für Worterkennung und end-to-end Texterkennungsaufgaben auf gängigen Benchmarks deutlich. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/MhLiao/TextBoxes_plusplus