Spatio-temporale Fusions-basierte konvolutionale Sequenzlernen für Lippenlesen

Aktuelle state-of-the-art-Ansätze für Lippenlesen basieren auf sequenz-zu-Sequenz-Architekturen, die ursprünglich für maschinelle Übersetzung und Spracherkennung aus Audio entwickelt wurden. Daher nutzen diese Methoden die Eigenschaften der Lippenbewegungen nicht vollständig und weisen zwei Hauptnachteile auf. Erstens erhalten kurze zeitliche Abhängigkeiten, die für die Abbildung von Lippenbildern auf Viseme entscheidend sind, keine zusätzliche Berücksichtigung. Zweitens wird lokale räumliche Information in bestehenden sequenziellen Modellen aufgrund der Verwendung von globaler Durchschnittspooling (Global Average Pooling, GAP) verloren. Um diese Nachteile effektiv zu beheben, schlagen wir einen Temporal Focal-Block vor, um kurze zeitliche Abhängigkeiten ausreichend zu erfassen, sowie ein Spatio-Temporal Fusion-Modul (STFM), um lokale räumliche Informationen zu bewahren und gleichzeitig die Merkmalsdimensionen zu reduzieren. Die experimentellen Ergebnisse zeigen, dass unsere Methode eine vergleichbare Leistung wie der aktuelle Stand der Technik erzielt, jedoch deutlich weniger Trainingsdaten und einen wesentlich leichteren convolutionalen Merkmalsextraktor benötigt. Die Trainingszeit konnte um 12 Tage durch die convolutionale Struktur und die lokale Self-Attention-Mechanismen reduziert werden.