vor einem Monat
Kombination von Residuen-Netzwerken mit LSTMs für Lipreading
Themos Stafylakis; Georgios Tzimiropoulos

Abstract
Wir schlagen eine end-to-end Tiefenlernarchitektur für die Wortsprach-Erkennung auf visueller Ebene vor. Das System ist eine Kombination aus räumlich-zeitlichen Faltungsnetzen, Residualnetzen und bidirektionale Long Short-Term Memory (LSTM)-Netzen. Wir trainieren und evaluieren es am Lippenlesung-In-The-Wild-Benchmark, einer anspruchsvollen Datenbank mit 500 Zielwörtern, die aus 1,28 Sekunden langen Videoausschnitten von BBC-TV-Sendungen besteht. Das vorgeschlagene Netzwerk erreicht eine Wörtrefferquote von 83,0 %, was einen absoluten Vorteil von 6,8 % gegenüber dem aktuellen Stand der Technik darstellt, ohne während des Trainings oder Testens Informationen über Wortgrenzen zu verwenden.