HyperAIHyperAI

Command Palette

Search for a command to run...

ABCNet v2: Adaptive Bezier-Curve Network für Echtzeit-End-to-End-Text-Spotting

Yuliang Liu Chunhua Shen Lianwen Jin Tong He Peng Chen Chongyu Liu Hao Chen

Zusammenfassung

End-to-End-Text-Spotting, das darauf abzielt, Detektion und Erkennung in einem einheitlichen Rahmen zu integrieren, gewinnt aufgrund der vereinfachten Koordination zweier komplementärer Aufgaben zunehmend an Aufmerksamkeit. Besonders herausfordernd bleibt die Verarbeitung von textuellen Instanzen beliebiger Form. Vorangegangene Methoden lassen sich grob in zwei Kategorien einteilen: zeichenbasierte und segmentationsbasierte Ansätze, die oft zeichenlevel-annotierte Daten und/oder komplexe Nachverarbeitungsschritte erfordern, bedingt durch die unstrukturierten Ausgaben. In diesem Beitrag behandeln wir das Problem des End-to-End-Text-Spotting durch die Einführung des Adaptive Bezier Curve Network v2 (ABCNet v2). Unsere Hauptbeiträge sind vierfach: 1) Erstmals passen wir beliebig geformte Texte adaptiv mittels einer parametrisierten Bezier-Kurve an, wodurch im Vergleich zu segmentationsbasierten Methoden nicht nur strukturierte Ausgaben ermöglicht werden, sondern auch eine kontrollierbare Darstellung gewährleistet ist. 2) Wir entwickeln eine neuartige BezierAlign-Schicht zur präzisen Extraktion von konvolutionellen Merkmalen für Textinstanzen beliebiger Form, was die Erkennungsgenauigkeit gegenüber früheren Methoden erheblich verbessert. 3) Im Gegensatz zu vorherigen Ansätzen, die häufig komplexer Nachverarbeitung und empfindlichen Hyperparametern unterliegen, bewahrt unser ABCNet v2 eine einfache Verarbeitungskette mit lediglich einer einzigen Nachverarbeitungsschritt: der nicht-maximalen Unterdrückung (NMS). 4) Da die Leistung der Texterkennung eng mit der Merkmalsausrichtung korreliert, integriert ABCNet v2 zudem eine einfache, jedoch effektive Koordinaten-Konvolution, um die Position der konvolutionellen Filter zu kodieren, was zu einer signifikanten Leistungssteigerung bei praktisch vernachlässigbarem zusätzlichen Rechenaufwand führt. Umfassende Experimente auf mehreren bilingualen (Englisch und Chinesisch) Benchmark-Datensätzen zeigen, dass ABCNet v2 sowohl state-of-the-art-Leistung erreicht als auch eine außerordentlich hohe Effizienz aufweist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ABCNet v2: Adaptive Bezier-Curve Network für Echtzeit-End-to-End-Text-Spotting | Paper | HyperAI