HyperAIHyperAI

Command Palette

Search for a command to run...

Genau und ressourcenschonendes Lippenlesen mit EfficientNetV2 und Transformers

Gerasimos Potamianos Alexandros Koumparoulis

Zusammenfassung

Wir präsentieren eine neuartige ressourcenschonende End-to-End-Architektur für Lippenlesen, die auf einem populären und anspruchsvollen Benchmark-Satz Zustand der Technik erreicht. Insbesondere leisten wir folgende Beiträge: Erstens führen wir aufgrund des jüngsten Erfolgs der EfficientNet-Architektur in der Bildklassifikation sowie unserer früheren Arbeit zu ressourcenschonenden Lippenlesemodellen (MobiLipNet) EfficientNets erstmals für die Aufgabe des Lippenlesens ein. Zweitens zeigen wir, dass der derzeit am häufigsten in der Literatur verwendete 3D-Front-End eine Max-Pooling-Schicht enthält, die eine optimale Leistung der Netzwerke verhindert, und schlagen deren Entfernung vor. Drittens erhöhen wir die Robustheit des Back-Ends unseres Systems durch die Integration eines Transformer-Encoders. Wir evaluieren unser vorgeschlagenes System am „Lipreading In-The-Wild“ (LRW)-Korpus, einer Datenbank, die kurze Videosegmente aus BBC-TV-Übertragungen enthält. Das vorgeschlagene Netzwerk (T-Variante) erreicht eine Wortgenauigkeit von 88,53 %, eine absolute Verbesserung von 0,17 % gegenüber dem derzeitigen Stand der Technik, wobei es gleichzeitig fünfmal rechenintensiver ist. Zudem erzielt eine vergrößerte Version unseres Modells (L-Variante) eine Genauigkeit von 89,52 %, was einen neuen State-of-the-Art-Wert für das LRW-Korpus darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Genau und ressourcenschonendes Lippenlesen mit EfficientNetV2 und Transformers | Paper | HyperAI