HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Transformer für schnelle und effiziente Szenentexterkennung

Rowel Atienza

Zusammenfassung

Die Erkennung von Szenentext (Scene Text Recognition, STR) ermöglicht es Computern, Text in natürlichen Szenen wie Objektkennzeichnungen, Verkehrszeichen oder Anweisungen zu lesen. STR unterstützt Maschinen dabei, fundierte Entscheidungen zu treffen, beispielsweise welches Objekt zu greifen ist, in welche Richtung sich zu bewegen ist oder welcher nächste Handlungsschritt ausgeführt werden soll. In der Forschungsliteratur zur STR liegt der Fokus traditionell auf der Erkennungsgenauigkeit. Dagegen wird auf Geschwindigkeit und rechnerische Effizienz wenig Wert gelegt – obwohl diese Aspekte besonders für energiebeschränkte mobile Systeme von gleicher Bedeutung sind. In diesem Artikel stellen wir ViTSTR vor, ein STR-Modell mit einer einfachen, einstufigen Architektur, das auf einem rechen- und parameter-effizienten Vision Transformer (ViT) basiert. Im Vergleich zu einer starken Basismethode wie TRBA mit einer Genauigkeit von 84,3 % erreicht unsere kleine Variante von ViTSTR eine konkurrenzfähige Genauigkeit von 82,6 % (84,2 % mit Datenaugmentation) bei einer 2,4-fachen Geschwindigkeitssteigerung, wobei lediglich 43,4 % der Parameteranzahl und 42,2 % der FLOPS (Floating-Point Operations) benötigt werden. Die winzige Version von ViTSTR erreicht eine Genauigkeit von 80,3 % (82,1 % mit Datenaugmentation) bei einer 2,5-fachen Geschwindigkeit, wobei nur 10,9 % der Parameteranzahl und 11,9 % der FLOPS erforderlich sind. Mit Datenaugmentation übertrifft unsere Standardvariante von ViTSTR TRBA mit einer Genauigkeit von 85,2 % (83,7 % ohne Augmentation) bei einer 2,3-fachen Geschwindigkeit, benötigt jedoch 73,2 % mehr Parameter und 61,5 % mehr FLOPS. In Bezug auf das Leistungs-Gewichtungsverhältnis befinden sich nahezu alle Konfigurationen von ViTSTR an oder nahe der Grenze der möglichen Kompromisse, um gleichzeitig maximale Genauigkeit, Geschwindigkeit und rechnerische Effizienz zu erreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision Transformer für schnelle und effiziente Szenentexterkennung | Paper | HyperAI