Zur Erkennung von Texten beliebiger Form mit 2D Self-Attention

Die Erkennung von Szenentext (Scene Text Recognition, STR) ist die Aufgabe, Zeichenfolgen in natürlichen Szenen zu erkennen. Obwohl erhebliche Fortschritte bei STR-Methoden erzielt wurden, versagen derzeitige Ansätze weiterhin bei der Erkennung von Texten beliebiger Form, wie stark gekrümmte oder rotierte Texte, die im Alltag allgegenwärtig sind (z. B. Restaurant-Schilder, Produktetiketten, Firmenlogos). In dieser Arbeit wird eine neuartige Architektur vorgestellt, die Texte beliebiger Form erkennt und Self-Attention Text Recognition Network (SATRN) genannt wird. SATRN ist von der Transformer-Architektur inspiriert und nutzt die Selbst-Attention-Mechanismen, um zweidimensionale (2D) räumliche Abhängigkeiten zwischen Zeichen in einer Szenentextabbildung zu modellieren. Durch die vollständige Graph-Propagation der Selbst-Attention ist SATRN in der Lage, Texte mit beliebiger Anordnung und großer Zwischenzeichenabstand zu erkennen. Als Ergebnis übertrifft SATRN bestehende STR-Modelle im Durchschnitt um 5,7 Prozentpunkte auf „irregulären Text“-Benchmarks. Wir liefern empirische Analysen, die die inneren Mechanismen und den Anwendungsbereich des Modells aufzeigen (z. B. rotierter und mehrzeiliger Text). Der Quellcode wird öffentlich zugänglich gemacht.