SPTS: Single-Point Text Spotting

Bekannte Ansätze für die Erkennung von Szenentexten (d. h. end-to-end-Texterkennung und -detektion) basieren auf kostspieligen Beschriftungen mittels Achsenparalleler Rechtecke (z. B. Textzeilen-, Wort- oder Zeichenlevel-Rechtecke). Erstmals zeigen wir, dass die Schulung von Szenentext-Erkennungsmodellen mit einer äußerst kostengünstigen Annotation pro Instanz – nämlich lediglich einem einzigen Punkt – möglich ist. Wir stellen eine end-to-end-Methode zur Szenentext-Erkennung vor, die das Problem als Sequenzvorhersageaufgabe formuliert. Gegeben ein Bild als Eingabe, modellieren wir die gewünschten Detektions- und Erkennungsergebnisse als Folge diskreter Tokens und nutzen einen autoregressiven Transformer, um diese Sequenz vorherzusagen. Die vorgeschlagene Methode ist einfach, jedoch äußerst effektiv und erreicht auf etablierten Benchmarks Ergebnisse auf State-of-the-Art-Niveau. Besonders hervorzuheben ist, dass die Leistung nicht sehr empfindlich gegenüber der genauen Position der Punktbeschriftung ist, was bedeutet, dass die Annotation erheblich einfacher durchzuführen oder sogar automatisch generiert werden kann im Vergleich zu Rechtecken, die präzise Positionen erfordern. Wir sind überzeugt, dass dieser wegweisende Ansatz eine bedeutende Chance für die Skalierung von Szenentext-Erkennungsanwendungen eröffnet, die bisher nicht möglich waren. Der Quellcode ist unter https://github.com/shannanyinxiang/SPTS verfügbar.