HyperAIHyperAI

Command Palette

Search for a command to run...

SPTS v2: Single-Point Scene Text Spotting

Zusammenfassung

End-to-end-Szenentext-Spotting hat aufgrund der inhärenten Synergie zwischen Textdetektion und -erkennung erhebliche Fortschritte erzielt. Frühere Methoden setzen häufig manuelle Annotationen wie horizontale Rechtecke, rotierte Rechtecke, Vierecke oder Polygone als Voraussetzung voraus, die deutlich kostspieliger sind als die Verwendung einzelner Punkte. Unser neues Framework, SPTS v2, ermöglicht es uns, hochleistungsfähige Text-Spotting-Modelle mit nur punktbasierter Annotation zu trainieren. SPTS v2 behält den Vorteil des autoregressiven Transformers mit einem Instance Assignment Decoder (IAD) bei, indem es die Mittelpunkte aller Textinstanzen sequenziell innerhalb derselben Vorhersagefolge vorhersagt, während gleichzeitig ein Parallel Recognition Decoder (PRD) zur parallelen Texterkennung eingesetzt wird, was die Länge der Sequenz erheblich reduziert. Beide Decoder teilen sich die gleichen Parameter und sind über einen einfachen, aber effektiven Informationsübertragungsprozess interaktiv miteinander verbunden, um Gradienten und Informationen effizient auszutauschen. Umfassende Experimente auf verschiedenen etablierten Benchmark-Datensätzen zeigen, dass SPTS v2 die Leistung bisheriger State-of-the-Art-Modelle mit punktbasierter Annotation übertrifft, dabei aber weniger Parameter benötigt und eine um den Faktor 19 schnellere Inferenzgeschwindigkeit erreicht. In Anbetracht unseres SPTS v2-Frameworks deuten unsere Experimente darauf hin, dass die Darstellung mittels einzelner Punkte im Bereich des Szenentext-Spotting möglicherweise gegenüber anderen Darstellungsformen bevorzugt werden sollte. Dieser Ansatz eröffnet erhebliche Möglichkeiten für Anwendungen im Bereich des Szenentext-Spotting jenseits der bisherigen Paradigmen. Der Quellcode ist verfügbar unter: https://github.com/Yuliang-Liu/SPTSv2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SPTS v2: Single-Point Scene Text Spotting | Paper | HyperAI