HyperAIHyperAI
vor 11 Tagen

Vision Transformer für schnelle und effiziente Szenentexterkennung

Rowel Atienza
Vision Transformer für schnelle und effiziente Szenentexterkennung
Abstract

Die Erkennung von Szenentext (Scene Text Recognition, STR) ermöglicht es Computern, Text in natürlichen Szenen wie Objektkennzeichnungen, Verkehrszeichen oder Anweisungen zu lesen. STR unterstützt Maschinen dabei, fundierte Entscheidungen zu treffen, beispielsweise welches Objekt zu greifen ist, in welche Richtung sich zu bewegen ist oder welcher nächste Handlungsschritt ausgeführt werden soll. In der Forschungsliteratur zur STR liegt der Fokus traditionell auf der Erkennungsgenauigkeit. Dagegen wird auf Geschwindigkeit und rechnerische Effizienz wenig Wert gelegt – obwohl diese Aspekte besonders für energiebeschränkte mobile Systeme von gleicher Bedeutung sind. In diesem Artikel stellen wir ViTSTR vor, ein STR-Modell mit einer einfachen, einstufigen Architektur, das auf einem rechen- und parameter-effizienten Vision Transformer (ViT) basiert. Im Vergleich zu einer starken Basismethode wie TRBA mit einer Genauigkeit von 84,3 % erreicht unsere kleine Variante von ViTSTR eine konkurrenzfähige Genauigkeit von 82,6 % (84,2 % mit Datenaugmentation) bei einer 2,4-fachen Geschwindigkeitssteigerung, wobei lediglich 43,4 % der Parameteranzahl und 42,2 % der FLOPS (Floating-Point Operations) benötigt werden. Die winzige Version von ViTSTR erreicht eine Genauigkeit von 80,3 % (82,1 % mit Datenaugmentation) bei einer 2,5-fachen Geschwindigkeit, wobei nur 10,9 % der Parameteranzahl und 11,9 % der FLOPS erforderlich sind. Mit Datenaugmentation übertrifft unsere Standardvariante von ViTSTR TRBA mit einer Genauigkeit von 85,2 % (83,7 % ohne Augmentation) bei einer 2,3-fachen Geschwindigkeit, benötigt jedoch 73,2 % mehr Parameter und 61,5 % mehr FLOPS. In Bezug auf das Leistungs-Gewichtungsverhältnis befinden sich nahezu alle Konfigurationen von ViTSTR an oder nahe der Grenze der möglichen Kompromisse, um gleichzeitig maximale Genauigkeit, Geschwindigkeit und rechnerische Effizienz zu erreichen.

Vision Transformer für schnelle und effiziente Szenentexterkennung | Neueste Forschungsarbeiten | HyperAI