HyperAIHyperAI
vor 8 Tagen

ABCNet v2: Adaptive Bezier-Curve Network für Echtzeit-End-to-End-Text-Spotting

Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen
ABCNet v2: Adaptive Bezier-Curve Network für Echtzeit-End-to-End-Text-Spotting
Abstract

End-to-End-Text-Spotting, das darauf abzielt, Detektion und Erkennung in einem einheitlichen Rahmen zu integrieren, gewinnt aufgrund der vereinfachten Koordination zweier komplementärer Aufgaben zunehmend an Aufmerksamkeit. Besonders herausfordernd bleibt die Verarbeitung von textuellen Instanzen beliebiger Form. Vorangegangene Methoden lassen sich grob in zwei Kategorien einteilen: zeichenbasierte und segmentationsbasierte Ansätze, die oft zeichenlevel-annotierte Daten und/oder komplexe Nachverarbeitungsschritte erfordern, bedingt durch die unstrukturierten Ausgaben. In diesem Beitrag behandeln wir das Problem des End-to-End-Text-Spotting durch die Einführung des Adaptive Bezier Curve Network v2 (ABCNet v2). Unsere Hauptbeiträge sind vierfach: 1) Erstmals passen wir beliebig geformte Texte adaptiv mittels einer parametrisierten Bezier-Kurve an, wodurch im Vergleich zu segmentationsbasierten Methoden nicht nur strukturierte Ausgaben ermöglicht werden, sondern auch eine kontrollierbare Darstellung gewährleistet ist. 2) Wir entwickeln eine neuartige BezierAlign-Schicht zur präzisen Extraktion von konvolutionellen Merkmalen für Textinstanzen beliebiger Form, was die Erkennungsgenauigkeit gegenüber früheren Methoden erheblich verbessert. 3) Im Gegensatz zu vorherigen Ansätzen, die häufig komplexer Nachverarbeitung und empfindlichen Hyperparametern unterliegen, bewahrt unser ABCNet v2 eine einfache Verarbeitungskette mit lediglich einer einzigen Nachverarbeitungsschritt: der nicht-maximalen Unterdrückung (NMS). 4) Da die Leistung der Texterkennung eng mit der Merkmalsausrichtung korreliert, integriert ABCNet v2 zudem eine einfache, jedoch effektive Koordinaten-Konvolution, um die Position der konvolutionellen Filter zu kodieren, was zu einer signifikanten Leistungssteigerung bei praktisch vernachlässigbarem zusätzlichen Rechenaufwand führt. Umfassende Experimente auf mehreren bilingualen (Englisch und Chinesisch) Benchmark-Datensätzen zeigen, dass ABCNet v2 sowohl state-of-the-art-Leistung erreicht als auch eine außerordentlich hohe Effizienz aufweist.

ABCNet v2: Adaptive Bezier-Curve Network für Echtzeit-End-to-End-Text-Spotting | Neueste Forschungsarbeiten | HyperAI