Sprachrekonstruktion mit erinnerndem Klang über visuelles Sprachgedächtnis
Das Ziel dieser Arbeit besteht darin, Sprache aus stummer Videoaufnahme sowohl im sprecherabhängigen als auch im sprecherunabhängigen Kontext wiederherzustellen. Im Gegensatz zu früheren Arbeiten, die hauptsächlich auf einen sprecherabhängigen Ansatz beschränkt waren, stellen wir Visual Voice Memory vor, um wesentliche akustische Informationen wiederherzustellen und so angemessene Sprache verschiedener Sprecher – sogar bisher unbekannter Sprecher – zu generieren. Der vorgeschlagene Gedächtnismechanismus nimmt zusätzliche akustische Informationen auf, die den Eingabegesichtsbewegungen entsprechen, und speichert akustische Kontexte, die durch die gegebenen visuellen Merkmale abgerufen werden können. Genauer gesagt enthält das Visual Voice Memory Wert- und Schlüsselspeicherplätze: Die Wert-Speicherplätze dienen der Speicherung akustischer Merkmale, während die Schlüsselspeicherplätze die visuellen Merkmale an denselben Positionen speichern, an denen die entsprechenden akustischen Merkmale gespeichert sind. Durch eine gezielte Steuerung der Speicherung jedes Merkmals kann das Modell die Sprache angemessen generieren. Somit nutzt unsere Methode während des Trainings sowohl Video- als auch Audioinformationen, benötigt jedoch während der Inferenz keine zusätzlichen akustischen Eingaben. Unsere zentralen Beiträge sind: (1) die Einführung des Visual Voice Memory, welcher reichhaltige akustische Informationen bereitstellt, die die visuellen Merkmale ergänzen und somit hochwertige Sprache aus stummen Videos erzeugen, sowie (2) die Unterstützung von Multi-Sprecher- und Sprecher-unabhängiger Trainingsszenarien durch das Speichern von akustischen Merkmalen und den entsprechenden visuellen Merkmalen. Wir validieren das vorgeschlagene Framework anhand der Datensätze GRID und Lip2Wav und zeigen, dass unsere Methode sowohl im Multi-Sprecher- als auch im sprecherunabhängigen Setting die Leistung früherer Ansätze übertrifft. Zudem demonstrieren wir, dass das Visual Voice Memory aussagekräftige Informationen enthält, die zur Wiederherstellung der Sprache genutzt werden können.