HyperAIHyperAI
il y a 2 mois

Frieren : Réseau de génération efficace d'audio à partir de vidéo avec appariement de flux rectifié

Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou
Frieren : Réseau de génération efficace d'audio à partir de vidéo avec appariement de flux rectifié
Résumé

La génération vidéo-à-audio (V2A) vise à synthétiser un contenu sonore correspondant à partir d'une vidéo silencieuse, et il reste difficile de construire des modèles V2A avec une haute qualité de génération, une efficacité optimale et une synchronisation temporelle visuelle-sonore précise. Nous proposons Frieren, un modèle V2A basé sur l'appariement de flux rectifié. Frieren régresse le champ de vecteurs de transport conditionnel du bruit au spectrogramme latent par des trajectoires droites et effectue l'échantillonnage en résolvant une équation différentielle ordinaire (ODE), surpassant ainsi les modèles autoregressifs et basés sur les scores en termes de qualité sonore. En utilisant un estimateur non-autoregressif de champ de vecteurs basé sur un transformateur à alimentation directe et une fusion de caractéristiques inter-modales au niveau des canaux avec une forte alignement temporel, notre modèle génère un son hautement synchronisé avec la vidéo d'entrée. De plus, grâce au reflux et à la distillation en un pas avec un champ de vecteurs guidé, notre modèle peut produire un son convenable en quelques étapes d'échantillonnage seulement, voire en une seule étape. Les expériences montrent que Frieren atteint des performances d'état de l'art tant en qualité de génération qu'en alignement temporel sur VGGSound, avec une précision d'alignement atteignant 97,22 % et une amélioration de 6,2 % du score d'inception par rapport à la ligne de base diffusion basée sur des méthodes solides. Des exemples audio sont disponibles à l'adresse http://frieren-v2a.github.io.

Frieren : Réseau de génération efficace d'audio à partir de vidéo avec appariement de flux rectifié | Articles de recherche récents | HyperAI