HyperAIHyperAI

Command Palette

Search for a command to run...

SPTS: Single-Point Text Spotting

Zusammenfassung

Bekannte Ansätze für die Erkennung von Szenentexten (d. h. end-to-end-Texterkennung und -detektion) basieren auf kostspieligen Beschriftungen mittels Achsenparalleler Rechtecke (z. B. Textzeilen-, Wort- oder Zeichenlevel-Rechtecke). Erstmals zeigen wir, dass die Schulung von Szenentext-Erkennungsmodellen mit einer äußerst kostengünstigen Annotation pro Instanz – nämlich lediglich einem einzigen Punkt – möglich ist. Wir stellen eine end-to-end-Methode zur Szenentext-Erkennung vor, die das Problem als Sequenzvorhersageaufgabe formuliert. Gegeben ein Bild als Eingabe, modellieren wir die gewünschten Detektions- und Erkennungsergebnisse als Folge diskreter Tokens und nutzen einen autoregressiven Transformer, um diese Sequenz vorherzusagen. Die vorgeschlagene Methode ist einfach, jedoch äußerst effektiv und erreicht auf etablierten Benchmarks Ergebnisse auf State-of-the-Art-Niveau. Besonders hervorzuheben ist, dass die Leistung nicht sehr empfindlich gegenüber der genauen Position der Punktbeschriftung ist, was bedeutet, dass die Annotation erheblich einfacher durchzuführen oder sogar automatisch generiert werden kann im Vergleich zu Rechtecken, die präzise Positionen erfordern. Wir sind überzeugt, dass dieser wegweisende Ansatz eine bedeutende Chance für die Skalierung von Szenentext-Erkennungsanwendungen eröffnet, die bisher nicht möglich waren. Der Quellcode ist unter https://github.com/shannanyinxiang/SPTS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp