HyperAIHyperAI

Command Palette

Search for a command to run...

TPS++: Aufmerksamkeitsverstärktes Thin-Plate-Spline für die Erkennung von Szenentexten

Tianlun Zheng Zhineng Chen Jinfeng Bai Hongtao Xie Yu-Gang Jiang

Zusammenfassung

Textirregularitäten stellen erhebliche Herausforderungen für Szenentexterkennungssysteme dar. Die auf Thin-Plate-Spline (TPS)-Basis basierende Rektifizierung gilt derzeit als wirksame Methode zur Bewältigung dieser Probleme. Derzeit hängt die Berechnung der TPS-Transformationsparameter ausschließlich von der Qualität der rekonstruierten Textgrenzen ab. Dabei wird der Textinhalt ignoriert, was häufig zu unzufriedenstellenden Rektifizierungsergebnissen bei stark verzerrten Texten führt. In dieser Arbeit stellen wir TPS++ vor – eine auf Aufmerksamkeit basierende Erweiterung der TPS-Transformation, die erstmals den Aufmerksamkeitsmechanismus in die Textrektifizierung integriert. TPS++ formuliert die Parameterschätzung als gemeinsamen Prozess der Regression von Kontrollpunkten im Vordergrund und der Schätzung von inhaltsbasierten Aufmerksamkeitswerten, die mittels eines speziell entworfenen gated-Attention-Blocks berechnet werden. Dadurch entsteht ein flexibler, inhaltsbewusster Rektifizierer, der eine natürlichere Textkorrektur erzeugt, die für nachfolgende Erkennungssysteme leichter lesbar ist. Zudem teilt TPS++ teilweise den Merkmals-Backbone mit dem Erkennungssystem und führt die Rektifizierung auf Merkmalsebene statt auf Bildebene durch, wodurch lediglich ein geringer Zusatzaufwand an Parametern und Inferenzzeit entsteht. Experimente auf öffentlichen Benchmarks zeigen, dass TPS++ die Erkennungsgenauigkeit konsistent verbessert und state-of-the-art-Leistung erreicht. Gleichzeitig zeigt es eine hervorragende Generalisierbarkeit auf verschiedene Backbones und Erkennungssysteme. Der Quellcode ist unter https://github.com/simplify23/TPS_PP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp