ASTER: Ein aufmerksamkeitsbasiertes Szenentexterkennungssystem mit flexibler Korrektur
Die Erkennung von Text in Szenen (SCENE text recognition) hat in den letzten Jahren erhebliches Interesse sowohl in der akademischen Forschung als auch in der Industrie geweckt, bedingt durch ihre Bedeutung für eine Vielzahl von Anwendungen. Trotz der hohen Reife von Optical Character Recognition (OCR)-Systemen, die auf die Erkennung von Dokumententext ausgelegt sind, bleibt die Erkennung von Szenentext ein herausforderndes Problem. Die großen Variationen in Hintergrund, Erscheinungsbild und Layout stellen erhebliche Herausforderungen dar, die herkömmliche OCR-Methoden nicht effektiv bewältigen können. Die jüngsten Fortschritte in der Szenentexterkennung werden maßgeblich durch den Erfolg von tiefen Lernmodellen getrieben. Dazu gehören Verfahren, die Text zeichenweise mittels konvolutioneller Neuraler Netze (CNN) erkennen, Verfahren, die Wörter mit CNNs klassifizieren [24], [26], sowie Methoden, die Zeichenfolgen mithilfe einer Kombination aus CNN und rekurrentem Neuralem Netz (RNN) erkennen [54]. Trotz ihres Erfolgs behandeln diese Ansätze das Problem unregelmäßiger Texte – also Texte, die nicht horizontal und frontal ausgerichtet sind, eine gekrümmte Anordnung aufweisen usw. – nicht explizit. Unregelmäßige Texte treten häufig in natürlichen Szenen auf. Wie in Abbildung 1 veranschaulicht, gehören dazu typische Fälle wie orientierter Text, perspektivischer Text [49] sowie gekrümmerter Text. Da diese früheren Methoden keine Invarianz gegenüber solchen Unregelmäßigkeiten berücksichtigen, haben sie häufig Schwierigkeiten bei der Erkennung solcher Textinstanzen.