HyperAIHyperAI
vor 2 Monaten

Erzählen Sie, was Sie hören, anhand dessen, was Sie sehen -- Video-zu-Audio-Generierung durch Text

Liu, Xiulong ; Su, Kun ; Shlizerman, Eli
Erzählen Sie, was Sie hören, anhand dessen, was Sie sehen -- Video-zu-Audio-Generierung
  durch Text
Abstract

Der Inhalt visueller und akustischer Szenen ist vielfältig, sodass ein Video mit verschiedenen Audios und umgekehrt gekoppelt werden kann. Daher ist es bei der Aufgabe der Video-zu-Audio-Generierung unerlässlich, Steuerungsansätze einzuführen, um das generierte Audio zu kontrollieren. Obwohl die Video-zu-Audio-Generierung eine etablierte Generativaufgabe ist, fehlen den bestehenden Methoden solche Kontrollmöglichkeiten.In dieser Arbeit schlagen wir VATT vor, einen multimodalen Generierungsrahmen, der ein Video und einen optionalen Textanweisung als Eingabe entgegennimmt und Audio sowie eine optionale textuelle Beschreibung des Audios generiert. Ein solcher Rahmen hat zwei Vorteile: i) Der Prozess der Video-zu-Audio-Generierung kann durch Text verfeinert und gesteuert werden, der die visuellen Informationen ergänzt, und ii) Das Modell kann vorschlagen, welches Audio für das Video generiert werden soll, indem es Audio-Beschreibungen erstellt. VATT besteht aus zwei zentralen Modulen: VATT Converter, einem LLM (Large Language Model), das für Anweisungen feintuneiert wurde und eine Projektionsschicht enthält, die Videofeatures in den Vektorraum des LLM abbildet; und VATT Audio, einem Transformer, der Audio-Tokens aus visuellen Frames und optionalen Textanweisungen durch iteratives paralleles Decoding generiert. Die Audio-Tokens werden durch ein vortrainiertes neuronales Codec in ein Wellenformsignal konvertiert.Experimente zeigen, dass VATT im Vergleich zu bestehenden Video-zu-Audio-Generierungsmethoden in objektiven Metriken wettbewerbsfähige Leistungen erzielt, wenn keine Audio-Beschreibung bereitgestellt wird. Wenn eine Audio-Beschreibung als Anweisung gegeben wird, erreicht VATT noch verfeinerte Leistungen (niedrigster KLD-Wert von 1.41). Zudem zeigen subjektive Studien, dass VATT Audio häufig als bevorzugtes generiertes Audio gegenüber Audios von bestehenden Methoden gewählt wird. VATT ermöglicht es durch Text steuerbare Video-zu-Audio-Generierung sowie die Erstellung von Textanweisungen für Videos durch Audio-Beschreibungen und öffnet so neue Anwendungen wie textgesteuerte Video-zu-Audio-Generierung und Video-zu-Audio-Kaptionierung.

Erzählen Sie, was Sie hören, anhand dessen, was Sie sehen -- Video-zu-Audio-Generierung durch Text | Neueste Forschungsarbeiten | HyperAI