SPTS v2: Single-Point Scene Text Spotting

End-to-end-Szenentext-Spotting hat aufgrund der inhärenten Synergie zwischen Textdetektion und -erkennung erhebliche Fortschritte erzielt. Frühere Methoden setzen häufig manuelle Annotationen wie horizontale Rechtecke, rotierte Rechtecke, Vierecke oder Polygone als Voraussetzung voraus, die deutlich kostspieliger sind als die Verwendung einzelner Punkte. Unser neues Framework, SPTS v2, ermöglicht es uns, hochleistungsfähige Text-Spotting-Modelle mit nur punktbasierter Annotation zu trainieren. SPTS v2 behält den Vorteil des autoregressiven Transformers mit einem Instance Assignment Decoder (IAD) bei, indem es die Mittelpunkte aller Textinstanzen sequenziell innerhalb derselben Vorhersagefolge vorhersagt, während gleichzeitig ein Parallel Recognition Decoder (PRD) zur parallelen Texterkennung eingesetzt wird, was die Länge der Sequenz erheblich reduziert. Beide Decoder teilen sich die gleichen Parameter und sind über einen einfachen, aber effektiven Informationsübertragungsprozess interaktiv miteinander verbunden, um Gradienten und Informationen effizient auszutauschen. Umfassende Experimente auf verschiedenen etablierten Benchmark-Datensätzen zeigen, dass SPTS v2 die Leistung bisheriger State-of-the-Art-Modelle mit punktbasierter Annotation übertrifft, dabei aber weniger Parameter benötigt und eine um den Faktor 19 schnellere Inferenzgeschwindigkeit erreicht. In Anbetracht unseres SPTS v2-Frameworks deuten unsere Experimente darauf hin, dass die Darstellung mittels einzelner Punkte im Bereich des Szenentext-Spotting möglicherweise gegenüber anderen Darstellungsformen bevorzugt werden sollte. Dieser Ansatz eröffnet erhebliche Möglichkeiten für Anwendungen im Bereich des Szenentext-Spotting jenseits der bisherigen Paradigmen. Der Quellcode ist verfügbar unter: https://github.com/Yuliang-Liu/SPTSv2.