HyperAIHyperAI
vor 10 Tagen

Lipreading mit zeitlichen Faltungsnetzwerken

Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic
Lipreading mit zeitlichen Faltungsnetzwerken
Abstract

Die Lippenlesung hat in letzter Zeit aufgrund von Fortschritten im Bereich des tiefen Lernens erhebliche Forschungsinteressen geweckt. Das derzeitige Stand der Technik für die Erkennung isolierter Wörter in natürlicher Umgebung basiert auf einem Residualnetzwerk und Bidirektionalen Gated Recurrent Unit (BGRU)-Schichten. In dieser Arbeit behandeln wir die Limitationen dieses Modells und schlagen Verbesserungen vor, die seine Leistung weiter steigern. Erstens wird die BGRU-Schicht durch Temporale Faltungsnetzwerke (Temporal Convolutional Networks, TCN) ersetzt. Zweitens vereinfachen wir erheblich das Trainingsverfahren, sodass das Modell nun in einem einzigen Trainingsstadium optimiert werden kann. Drittens zeigen wir, dass die derzeitige state-of-the-art-Methode zu Modellen führt, die nicht gut auf Variationen der Sequenzlänge generalisieren, und adressieren dieses Problem durch die Einführung einer variablen Länge-Augmentation. Wir präsentieren Ergebnisse auf den größten öffentlich verfügbaren Datensätzen für die Erkennung isolierter Wörter im Englischen und Chinesischen, jeweils LRW und LRW1000. Unser vorgeschlagenes Modell erreicht absolute Verbesserungen von 1,2 % und 3,2 % auf diesen Datensätzen, was die neue state-of-the-art-Leistung darstellt.

Lipreading mit zeitlichen Faltungsnetzwerken | Neueste Forschungsarbeiten | HyperAI