HyperAIHyperAI
vor 2 Monaten

Frieren: Effizientes Video-to-Audio-Generierungsnetzwerk mit korrigiertem Flussabgleich

Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou
Frieren: Effizientes Video-to-Audio-Generierungsnetzwerk mit korrigiertem Flussabgleich
Abstract

Die Video-to-Audio (V2A) Generierung zielt darauf ab, inhaltsübereinstimmende Audioausgaben aus stummen Videos zu synthetisieren. Es bleibt jedoch eine Herausforderung, V2A-Modelle mit hoher Generationsqualität, Effizienz und visuell-auditorischer zeitlicher Synchronität zu entwickeln. Wir schlagen Frieren vor, ein V2A-Modell basierend auf der rektifizierten Flussanpassung. Frieren regressiert das bedingte Transportvektorfeld von Rauschen zum Spektrogramm-Latenzraum entlang gerader Pfade und führt die Stichprobenentnahme durch Lösen einer gewöhnlichen Differentialgleichung (ODE) durch, wodurch es autoregressiven und punktewertbasierten Modellen hinsichtlich der Audiosqualität überlegen ist. Durch den Einsatz eines nicht-autoregressiven Vektorfeldschätzers basierend auf einem Feed-Forward-Transformer sowie kanalweiser multimodal-kreuzender Feature-Fusion mit starker zeitlicher Ausrichtung generiert unser Modell Audio, das hochgradig mit dem Eingabevideo synchronisiert ist. Darüber hinaus kann unser Modell durch erneuten Fluss und einstufige Destillation mit geführtem Vektorfeld in wenigen oder sogar nur einem Sampling-Schritt anständige Audiosignale erzeugen. Experimente zeigen, dass Frieren sowohl in Bezug auf die Generationsqualität als auch die zeitliche Ausrichtung auf VGGSound den aktuellen Stand der Technik erreicht, wobei die Ausrichtungspräzision 97,22 % beträgt und der Inception-Score gegenüber einem starken diffusionsbasierten Baseline-Modell um 6,2 % verbessert wurde. Audiosamples sind unter http://frieren-v2a.github.io verfügbar.

Frieren: Effizientes Video-to-Audio-Generierungsnetzwerk mit korrigiertem Flussabgleich | Neueste Forschungsarbeiten | HyperAI