Genau und ressourcenschonendes Lippenlesen mit EfficientNetV2 und Transformers
Wir präsentieren eine neuartige ressourcenschonende End-to-End-Architektur für Lippenlesen, die auf einem populären und anspruchsvollen Benchmark-Satz Zustand der Technik erreicht. Insbesondere leisten wir folgende Beiträge: Erstens führen wir aufgrund des jüngsten Erfolgs der EfficientNet-Architektur in der Bildklassifikation sowie unserer früheren Arbeit zu ressourcenschonenden Lippenlesemodellen (MobiLipNet) EfficientNets erstmals für die Aufgabe des Lippenlesens ein. Zweitens zeigen wir, dass der derzeit am häufigsten in der Literatur verwendete 3D-Front-End eine Max-Pooling-Schicht enthält, die eine optimale Leistung der Netzwerke verhindert, und schlagen deren Entfernung vor. Drittens erhöhen wir die Robustheit des Back-Ends unseres Systems durch die Integration eines Transformer-Encoders. Wir evaluieren unser vorgeschlagenes System am „Lipreading In-The-Wild“ (LRW)-Korpus, einer Datenbank, die kurze Videosegmente aus BBC-TV-Übertragungen enthält. Das vorgeschlagene Netzwerk (T-Variante) erreicht eine Wortgenauigkeit von 88,53 %, eine absolute Verbesserung von 0,17 % gegenüber dem derzeitigen Stand der Technik, wobei es gleichzeitig fünfmal rechenintensiver ist. Zudem erzielt eine vergrößerte Version unseres Modells (L-Variante) eine Genauigkeit von 89,52 %, was einen neuen State-of-the-Art-Wert für das LRW-Korpus darstellt.