Zur genauen Erkennung von Szenentext mit semantischen Schlussfolgerungsnetzwerken

Szenentextbilder enthalten zwei Ebenen von Inhalten: visuelle Textur und semantische Information. Obwohl die bisherigen Ansätze zur Szenentexterkennung in den letzten Jahren erhebliche Fortschritte gemacht haben, wird die Forschung zur Auswertung semantischer Informationen zur Unterstützung der Texterkennung bisher nur wenig beachtet; lediglich RNN-ähnliche Strukturen wurden untersucht, um semantische Informationen implizit zu modellieren. Wir beobachten jedoch, dass RNN-basierte Methoden einige offensichtliche Nachteile aufweisen, wie beispielsweise eine zeitabhängige Dekodierungsstrategie und eine einseitige serielle Übertragung des semantischen Kontexts, was die Unterstützung durch semantische Information und die Recheneffizienz erheblich einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir einen neuartigen, end-to-end trainierbaren Rahmen namens Semantic Reasoning Network (SRN) für eine präzise Szenentexterkennung vor, bei dem ein globales semantisches Schließmodul (GSRM) eingeführt wird, um den globalen semantischen Kontext durch mehrfach parallele Übertragung zu erfassen. Die Ergebnisse auf sieben öffentlichen Benchmarks, einschließlich regulären Texten, unregelmäßigen Texten und nicht-lateinischen Langtexten, bestätigen die Wirksamkeit und Robustheit des vorgeschlagenen Ansatzes. Darüber hinaus weist die SRN gegenüber RNN-basierten Methoden erhebliche Vorteile in Bezug auf die Geschwindigkeit auf und demonstriert somit ihren praktischen Nutzen.