HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Erkennung von Texten beliebiger Form mit 2D Self-Attention

Junyeop Lee Sungrae Park Jeonghun Baek Seong Joon Oh Seonghyeon Kim Hwalsuk Lee

Zusammenfassung

Die Erkennung von Szenentext (Scene Text Recognition, STR) ist die Aufgabe, Zeichenfolgen in natürlichen Szenen zu erkennen. Obwohl erhebliche Fortschritte bei STR-Methoden erzielt wurden, versagen derzeitige Ansätze weiterhin bei der Erkennung von Texten beliebiger Form, wie stark gekrümmte oder rotierte Texte, die im Alltag allgegenwärtig sind (z. B. Restaurant-Schilder, Produktetiketten, Firmenlogos). In dieser Arbeit wird eine neuartige Architektur vorgestellt, die Texte beliebiger Form erkennt und Self-Attention Text Recognition Network (SATRN) genannt wird. SATRN ist von der Transformer-Architektur inspiriert und nutzt die Selbst-Attention-Mechanismen, um zweidimensionale (2D) räumliche Abhängigkeiten zwischen Zeichen in einer Szenentextabbildung zu modellieren. Durch die vollständige Graph-Propagation der Selbst-Attention ist SATRN in der Lage, Texte mit beliebiger Anordnung und großer Zwischenzeichenabstand zu erkennen. Als Ergebnis übertrifft SATRN bestehende STR-Modelle im Durchschnitt um 5,7 Prozentpunkte auf „irregulären Text“-Benchmarks. Wir liefern empirische Analysen, die die inneren Mechanismen und den Anwendungsbereich des Modells aufzeigen (z. B. rotierter und mehrzeiliger Text). Der Quellcode wird öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp