SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

Die Erkennung von Szenentexten ist ein aktuelles Forschungsthema im Bereich der Computer Vision. In jüngster Zeit wurden zahlreiche Erkennungsmethoden auf Basis des Encoder-Decoder-Rahmenwerks vorgeschlagen, die in der Lage sind, Szenentexte mit perspektivischer Verzerrung und gekrümmter Form zu verarbeiten. Dennoch bleiben erhebliche Herausforderungen bestehen, wie beispielsweise Bildunschärfe, ungleichmäßige Beleuchtung und unvollständige Zeichen. Wir argumentieren, dass die meisten Encoder-Decoder-Methoden auf lokalen visuellen Merkmalen basieren und keine explizite globale semantische Information nutzen. In dieser Arbeit stellen wir einen semantikverstärkten Encoder-Decoder-Framework vor, der robuste Erkennung von Texten niedriger Qualität ermöglicht. Die semantische Information wird sowohl im Encoder-Modul zur Supervision als auch im Decoder-Modul zur Initialisierung genutzt. Insbesondere wird die aktuell fortschrittlichste Methode ASTER als Referenz in das vorgeschlagene Framework integriert. Umfassende Experimente zeigen, dass der vorgeschlagene Rahmenwerk robuster gegenüber Textbildern niedriger Qualität ist und auf mehreren Benchmark-Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt.