HyperAIHyperAI
il y a 2 mois

Dire ce que vous entendez à partir de ce que vous voyez -- Génération audio à partir de vidéo via le texte

Liu, Xiulong ; Su, Kun ; Shlizerman, Eli
Dire ce que vous entendez à partir de ce que vous voyez -- Génération audio à partir de vidéo via le texte
Résumé

Le contenu des scènes visuelles et sonores est multifacette, de sorte qu'une vidéo peut être associée à diverses pistes audio et vice versa. Par conséquent, dans la tâche de génération audio à partir de vidéo, il est impératif d'introduire des approches de pilotage pour contrôler l'audio généré. Bien que la génération audio à partir de vidéo soit une tâche générative bien établie, les méthodes existantes manquent de cette capacité de contrôle. Dans ce travail, nous proposons VATT, un cadre génératif multimodal qui prend en entrée une vidéo et une invite textuelle optionnelle, et génère un flux audio ainsi qu'une description textuelle optionnelle de l'audio. Ce cadre présente deux avantages : i) le processus de génération audio à partir de vidéo peut être affiné et contrôlé par le biais du texte, qui complète le contexte des informations visuelles ; ii) le modèle peut suggérer quel type d'audio générer pour la vidéo en produisant des légendes sonores. VATT se compose de deux modules clés : VATT Converter, un grand modèle linguistique (LLM) finement ajusté pour les instructions et doté d'une couche de projection qui mappe les caractéristiques vidéo vers l'espace vectoriel du LLM ; et VATT Audio, un transformateur qui génère des jetons audio à partir des images visuelles et d'une invite textuelle optionnelle en utilisant un décodage parallèle itératif. Les jetons audio sont convertis en onde sonore par un codec neuronal pré-entraîné. Les expériences montrent que lorsque VATT est comparé aux méthodes existantes de génération audio à partir de vidéo selon des métriques objectives, il atteint une performance compétitive même sans légende sonore fournie. Lorsque la légende sonore est fournie comme prompt, VATT atteint une performance encore plus affinée (score KLD le plus bas de 1.41). De plus, des études subjectives montrent que VATT Audio a été choisi comme la piste audio préférée par rapport aux pistes générées par les méthodes existantes. VATT permet donc une génération audio à partir de vidéo contrôlable grâce au texte tout en suggérant des invites textuelles pour les vidéos via des légendes sonores, ouvrant ainsi la voie à de nouvelles applications telles que la génération audio guidée par le texte et la légendage automatique audio-vidéo.

Dire ce que vous entendez à partir de ce que vous voyez -- Génération audio à partir de vidéo via le texte | Articles de recherche récents | HyperAI