SVTR: Szenentexterkennung mit einem einzigen visuellen Modell

Dominante Modelle zur Szenentexterkennung bestehen typischerweise aus zwei Bausteinen: einem visuellen Modell zur Merkmalsextraktion und einem Sequenzmodell zur Texttranskription. Diese hybride Architektur ist zwar präzise, jedoch komplex und ineffizient. In dieser Studie stellen wir ein einziges visuelles Modell für die Szenentexterkennung innerhalb des Patch-basierten Bild-Tokenisierungsrahmens vor, das die sequenzielle Modellierung vollständig entfällt. Die Methode, als SVTR (Single Visual model for Scene Text recognition) bezeichnet, zerlegt zunächst einen Bildtext in kleine Teile, sogenannte Zeichenkomponenten. Anschließend werden hierarchische Stufen durch komponentenbasierte Mischung, Verschmelzung und/oder Kombination wiederholt durchgeführt. Globale und lokale Mischblöcke werden speziell entworfen, um sowohl zwischen- als auch innerhalbzeichenbezogene Muster wahrzunehmen, was eine mehrschalige Wahrnehmung von Zeichenkomponenten ermöglicht. Auf diese Weise erfolgt die Erkennung von Zeichen durch eine einfache lineare Vorhersage. Experimentelle Ergebnisse auf sowohl englischen als auch chinesischen Szenentexterkennungsaufgaben belegen die Wirksamkeit von SVTR. SVTR-L (Large) erreicht eine hochkonkurrenzfähige Genauigkeit bei englischen Texten und übertrifft bestehende Methoden bei chinesischen Texten deutlich, wobei die Ausführungsgeschwindigkeit höher ist. Darüber hinaus ist SVTR-T (Tiny) ein effektives und deutlich kleineres Modell, das sich durch beeindruckende Inferenzgeschwindigkeit auszeichnet. Der Quellcode ist öffentlich unter https://github.com/PaddlePaddle/PaddleOCR verfügbar.