HyperAIHyperAI
vor 11 Tagen

Zur Erkennung von Texten beliebiger Form mit 2D Self-Attention

Junyeop Lee, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, Hwalsuk Lee
Zur Erkennung von Texten beliebiger Form mit 2D Self-Attention
Abstract

Die Erkennung von Szenentext (Scene Text Recognition, STR) ist die Aufgabe, Zeichenfolgen in natürlichen Szenen zu erkennen. Obwohl erhebliche Fortschritte bei STR-Methoden erzielt wurden, versagen derzeitige Ansätze weiterhin bei der Erkennung von Texten beliebiger Form, wie stark gekrümmte oder rotierte Texte, die im Alltag allgegenwärtig sind (z. B. Restaurant-Schilder, Produktetiketten, Firmenlogos). In dieser Arbeit wird eine neuartige Architektur vorgestellt, die Texte beliebiger Form erkennt und Self-Attention Text Recognition Network (SATRN) genannt wird. SATRN ist von der Transformer-Architektur inspiriert und nutzt die Selbst-Attention-Mechanismen, um zweidimensionale (2D) räumliche Abhängigkeiten zwischen Zeichen in einer Szenentextabbildung zu modellieren. Durch die vollständige Graph-Propagation der Selbst-Attention ist SATRN in der Lage, Texte mit beliebiger Anordnung und großer Zwischenzeichenabstand zu erkennen. Als Ergebnis übertrifft SATRN bestehende STR-Modelle im Durchschnitt um 5,7 Prozentpunkte auf „irregulären Text“-Benchmarks. Wir liefern empirische Analysen, die die inneren Mechanismen und den Anwendungsbereich des Modells aufzeigen (z. B. rotierter und mehrzeiliger Text). Der Quellcode wird öffentlich zugänglich gemacht.

Zur Erkennung von Texten beliebiger Form mit 2D Self-Attention | Neueste Forschungsarbeiten | HyperAI