HyperAIHyperAI
vor 2 Monaten

Synthetische Daten für die Textlokalisation in natürlichen Bildern

Ankush Gupta; Andrea Vedaldi; Andrew Zisserman
Synthetische Daten für die Textlokalisation in natürlichen Bildern
Abstract

In dieser Arbeit stellen wir eine neue Methode zur Texterkennung in natürlichen Bildern vor. Die Methode umfasst zwei wesentliche Beiträge: Erstens, einen schnellen und skalierbaren Motor zur Generierung von synthetischen Textbildern in komplexen Szenen. Dieser Motor überlagert synthetischen Text auf vorhandene Hintergrundbilder auf natürliche Weise, wobei die lokale 3D-Szenengeometrie berücksichtigt wird. Zweitens nutzen wir die synthetischen Bilder, um ein Fully-Convolutional Regression Network (FCRN) zu trainieren, das effizient Texterkennung und Bounding-Box-Regression an allen Positionen und mehreren Skalen in einem Bild durchführt. Wir diskutieren den Zusammenhang des FCRN mit dem kürzlich eingeführten YOLO-Detektor sowie anderen End-to-End-Objekterkennungssystemen, die auf tiefem Lernen basieren. Das resultierende Detektionsnetzwerk übertreffen signifikant aktuelle Methoden zur Texterkennung in natürlichen Bildern und erreicht einen F-Wert von 84,2 % im Standard-ICDAR 2013 Benchmark. Darüber hinaus kann es 15 Bilder pro Sekunde auf einer GPU verarbeiten.

Synthetische Daten für die Textlokalisation in natürlichen Bildern | Neueste Forschungsarbeiten | HyperAI