HyperAIHyperAI

Command Palette

Search for a command to run...

Spatio-temporale Fusions-basierte konvolutionale Sequenzlernen für Lippenlesen

Shilin Wang Feng Cheng Xingxuan Zhang

Zusammenfassung

Aktuelle state-of-the-art-Ansätze für Lippenlesen basieren auf sequenz-zu-Sequenz-Architekturen, die ursprünglich für maschinelle Übersetzung und Spracherkennung aus Audio entwickelt wurden. Daher nutzen diese Methoden die Eigenschaften der Lippenbewegungen nicht vollständig und weisen zwei Hauptnachteile auf. Erstens erhalten kurze zeitliche Abhängigkeiten, die für die Abbildung von Lippenbildern auf Viseme entscheidend sind, keine zusätzliche Berücksichtigung. Zweitens wird lokale räumliche Information in bestehenden sequenziellen Modellen aufgrund der Verwendung von globaler Durchschnittspooling (Global Average Pooling, GAP) verloren. Um diese Nachteile effektiv zu beheben, schlagen wir einen Temporal Focal-Block vor, um kurze zeitliche Abhängigkeiten ausreichend zu erfassen, sowie ein Spatio-Temporal Fusion-Modul (STFM), um lokale räumliche Informationen zu bewahren und gleichzeitig die Merkmalsdimensionen zu reduzieren. Die experimentellen Ergebnisse zeigen, dass unsere Methode eine vergleichbare Leistung wie der aktuelle Stand der Technik erzielt, jedoch deutlich weniger Trainingsdaten und einen wesentlich leichteren convolutionalen Merkmalsextraktor benötigt. Die Trainingszeit konnte um 12 Tage durch die convolutionale Struktur und die lokale Self-Attention-Mechanismen reduziert werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Spatio-temporale Fusions-basierte konvolutionale Sequenzlernen für Lippenlesen | Paper | HyperAI