HyperAIHyperAI

Command Palette

Search for a command to run...

SVTR: Szenentexterkennung mit einem einzigen visuellen Modell

Yongkun Du Zhineng Chen Caiyan Jia Xiaoting Yin Tianlun Zheng Chenxia Li Yuning Du Yu-Gang Jiang

Zusammenfassung

Dominante Modelle zur Szenentexterkennung bestehen typischerweise aus zwei Bausteinen: einem visuellen Modell zur Merkmalsextraktion und einem Sequenzmodell zur Texttranskription. Diese hybride Architektur ist zwar präzise, jedoch komplex und ineffizient. In dieser Studie stellen wir ein einziges visuelles Modell für die Szenentexterkennung innerhalb des Patch-basierten Bild-Tokenisierungsrahmens vor, das die sequenzielle Modellierung vollständig entfällt. Die Methode, als SVTR (Single Visual model for Scene Text recognition) bezeichnet, zerlegt zunächst einen Bildtext in kleine Teile, sogenannte Zeichenkomponenten. Anschließend werden hierarchische Stufen durch komponentenbasierte Mischung, Verschmelzung und/oder Kombination wiederholt durchgeführt. Globale und lokale Mischblöcke werden speziell entworfen, um sowohl zwischen- als auch innerhalbzeichenbezogene Muster wahrzunehmen, was eine mehrschalige Wahrnehmung von Zeichenkomponenten ermöglicht. Auf diese Weise erfolgt die Erkennung von Zeichen durch eine einfache lineare Vorhersage. Experimentelle Ergebnisse auf sowohl englischen als auch chinesischen Szenentexterkennungsaufgaben belegen die Wirksamkeit von SVTR. SVTR-L (Large) erreicht eine hochkonkurrenzfähige Genauigkeit bei englischen Texten und übertrifft bestehende Methoden bei chinesischen Texten deutlich, wobei die Ausführungsgeschwindigkeit höher ist. Darüber hinaus ist SVTR-T (Tiny) ein effektives und deutlich kleineres Modell, das sich durch beeindruckende Inferenzgeschwindigkeit auszeichnet. Der Quellcode ist öffentlich unter https://github.com/PaddlePaddle/PaddleOCR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp