Multimodale assoziative Brückenbildung durch Gedächtnis: Sprachklang aus Gesichtsvideos rekonstruiert

In diesem Artikel stellen wir einen neuartigen audio-visuellen multimodalen Brückungsrahmen vor, der sowohl auditive als auch visuelle Informationen nutzen kann, selbst bei einmodalen Eingaben. Wir nutzen ein Gedächtnisnetzwerk, das Darstellungen der Quellmodality (d. h. visuell) und der Zielmodality (d. h. audio) speichert, wobei die Quellmodaldarstellung die gegebene Eingabe darstellt und die Zielmodaldarstellung dasjenige ist, das wir aus dem Gedächtnisnetzwerk ableiten möchten. Anschließend errichten wir eine assoziative Brücke zwischen Quell- und Zielgedächtnissen, die die Wechselbeziehungen zwischen beiden Gedächtnissen berücksichtigt. Durch das Lernen dieser Wechselbeziehungen mittels der assoziativen Brücke ist der vorgeschlagene Brückungsrahmen in der Lage, die Zielmodaldarstellungen innerhalb des Gedächtnisnetzwerks zu erzeugen, selbst wenn lediglich die Quellmodaleingabe vorliegt, und liefert hierdurch reichhaltige Informationen für nachgeschaltete Aufgaben. Wir wenden den vorgeschlagenen Rahmen auf zwei Aufgaben an: Lippenlesen und Sprachrekonstruktion aus stummen Videos. Durch die assoziative Brücke und modalspezifische Gedächtnisse wird das Wissen jeder Aufgabe durch die rekonstruierten audiovisuellen Kontexte angereichert, wodurch ein state-of-the-art-Performance erreicht wird. Zudem bestätigen wir, dass die assoziative Brücke die Quell- und Zielgedächtnisse korrekt miteinander verknüpft.