ABCNet: Echtzeit-Szenentext-Erkennung mit adaptivem Bezier-Kurven-Netzwerk

Die Erkennung und Erkennung von Szenentext hat zunehmend Forschungsinteresse erfahren. Bestehende Methoden lassen sich grob in zwei Kategorien einteilen: zeichenbasierte und segmentierungsbasierende Ansätze. Diese Methoden erfordern entweder kostspielige Zeichenannotation oder müssen eine komplexe Verarbeitungskette aufrechterhalten, was sie oft für Echtzeitanwendungen ungeeignet macht. In diesem Beitrag lösen wir das Problem durch die Einführung des Adaptive Bezier-Curve Networks (ABCNet). Unsere Beiträge sind dreifach: 1) Erstmals passen wir beliebig geformten Text adaptiv mittels einer parametrisierten Bezier-Kurve an. 2) Wir entwickeln eine neuartige BezierAlign-Schicht zur präzisen Extraktion von Faltungsmerkmalen für textuelle Instanzen beliebiger Form, wodurch die Genauigkeit im Vergleich zu früheren Methoden erheblich gesteigert wird. 3) Im Vergleich zur herkömmlichen Rechteckumrandungserkennung fügt unsere Bezier-Kurvenbasierte Erkennung nur eine vernachlässigbare Rechenlast hinzu, was unsere Methode sowohl hinsichtlich Effizienz als auch Genauigkeit übertrifft. Experimente auf beliebig geformten Benchmark-Datensätzen, nämlich Total-Text und CTW1500, zeigen, dass ABCNet die derzeit beste Genauigkeit erreicht und gleichzeitig die Geschwindigkeit signifikant verbessert. Insbesondere auf Total-Text ist unsere Echtzeit-Version mehr als zehnmal schneller als jüngste State-of-the-Art-Methoden, wobei die Erkennungsgenauigkeit konkurrenzfähig bleibt. Der Quellcode ist unter https://tinyurl.com/AdelaiDet verfügbar.