Synthetische Daten für die Textlokalisation in natürlichen Bildern

In dieser Arbeit stellen wir eine neue Methode zur Texterkennung in natürlichen Bildern vor. Die Methode umfasst zwei wesentliche Beiträge: Erstens, einen schnellen und skalierbaren Motor zur Generierung von synthetischen Textbildern in komplexen Szenen. Dieser Motor überlagert synthetischen Text auf vorhandene Hintergrundbilder auf natürliche Weise, wobei die lokale 3D-Szenengeometrie berücksichtigt wird. Zweitens nutzen wir die synthetischen Bilder, um ein Fully-Convolutional Regression Network (FCRN) zu trainieren, das effizient Texterkennung und Bounding-Box-Regression an allen Positionen und mehreren Skalen in einem Bild durchführt. Wir diskutieren den Zusammenhang des FCRN mit dem kürzlich eingeführten YOLO-Detektor sowie anderen End-to-End-Objekterkennungssystemen, die auf tiefem Lernen basieren. Das resultierende Detektionsnetzwerk übertreffen signifikant aktuelle Methoden zur Texterkennung in natürlichen Bildern und erreicht einen F-Wert von 84,2 % im Standard-ICDAR 2013 Benchmark. Darüber hinaus kann es 15 Bilder pro Sekunde auf einer GPU verarbeiten.