HyperAIHyperAI

Command Palette

Search for a command to run...

Synthetische Daten für die Textlokalisation in natürlichen Bildern

Ankush Gupta Andrea Vedaldi Andrew Zisserman

Zusammenfassung

In dieser Arbeit stellen wir eine neue Methode zur Texterkennung in natürlichen Bildern vor. Die Methode umfasst zwei wesentliche Beiträge: Erstens, einen schnellen und skalierbaren Motor zur Generierung von synthetischen Textbildern in komplexen Szenen. Dieser Motor überlagert synthetischen Text auf vorhandene Hintergrundbilder auf natürliche Weise, wobei die lokale 3D-Szenengeometrie berücksichtigt wird. Zweitens nutzen wir die synthetischen Bilder, um ein Fully-Convolutional Regression Network (FCRN) zu trainieren, das effizient Texterkennung und Bounding-Box-Regression an allen Positionen und mehreren Skalen in einem Bild durchführt. Wir diskutieren den Zusammenhang des FCRN mit dem kürzlich eingeführten YOLO-Detektor sowie anderen End-to-End-Objekterkennungssystemen, die auf tiefem Lernen basieren. Das resultierende Detektionsnetzwerk übertreffen signifikant aktuelle Methoden zur Texterkennung in natürlichen Bildern und erreicht einen F-Wert von 84,2 % im Standard-ICDAR 2013 Benchmark. Darüber hinaus kann es 15 Bilder pro Sekunde auf einer GPU verarbeiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Synthetische Daten für die Textlokalisation in natürlichen Bildern | Paper | HyperAI