Scene Text Telescope: textbasierte Super-Resolution von Szenenbildern

Bild-Super-Resolution, die oft als Vorverarbeitungsschritt für die Erkennung von Szenentexten angesehen wird, zielt darauf ab, realistische Merkmale aus textlichen Bildern mit geringer Auflösung wiederherzustellen. Aufgrund der erheblichen Variationen in Textformen, Schriftarten, Hintergründen usw. stellt sie stets eine Herausforderung dar. Die meisten bestehenden Methoden setzen jedoch allgemeine Super-Resolution-Frameworks ein, ohne dabei textspezifische Eigenschaften wie Textebenen-Layouts oder charakterbasierte Details zu berücksichtigen. In diesem Artikel stellen wir einen textorientierten Super-Resolution-Framework vor, den wir Scene Text Telescope (STT) nennen. Im Hinblick auf Textebenen-Layouts schlagen wir ein Transformer-basiertes Super-Resolution-Netzwerk (TBSRN) vor, das eine Self-Attention-Modul enthält, um sequenzielle Informationen zu extrahieren und robust gegenüber Texten in beliebigen Orientierungen zu sein. In Bezug auf charakterbasierte Details führen wir eine Position-Aware-Modul und eine Content-Aware-Modul ein, um die Position und den Inhalt jedes Zeichens hervorzuheben. Da bestimmte Zeichen unter Bedingungen niedriger Auflösung oft nicht unterscheidbar erscheinen, verwenden wir eine gewichtete Kreuzentropie-Verlustfunktion, um dieses Problem zu adressieren. Wir führen umfangreiche Experimente durch, einschließlich Texterkennung mit vortrainierten Erkennern und Bewertung der Bildqualität, auf TextZoom und mehreren Benchmarks für Szenentexterkennung, um die Qualität der Super-Resolution-Bilder zu bewerten. Die experimentellen Ergebnisse zeigen, dass unser STT tatsächlich textorientierte Super-Resolution-Bilder generieren kann und in Bezug auf die Erkennungsgenauigkeit die bestehenden Methoden übertrifft.