HyperAIHyperAI
il y a 2 mois

Alignement Temporel de l'Audio pour la Vidéo par Autoregression

Ilpo Viertola, Vladimir Iashin, Esa Rahtu
Alignement Temporel de l'Audio pour la Vidéo par Autoregression
Résumé

Nous présentons V-AURA, le premier modèle auto-régressif à atteindre une haute alignement temporel et pertinence dans la génération vidéo-à-audio. V-AURA utilise un extracteur de caractéristiques visuelles à haut taux d'images et une stratégie de fusion de caractéristiques audio-visuelles intermodales pour capturer des événements de mouvement visuel à grain fin et garantir un alignement temporel précis. De plus, nous proposons VisualSound, un jeu de données de référence avec une forte pertinence audio-visuelle. VisualSound est basé sur VGGSound, un ensemble de vidéos extraites de YouTube comprenant des échantillons en conditions réelles. Lors du processus de curation, nous supprimons les échantillons où les événements auditifs ne sont pas alignés avec les événements visuels. V-AURA surpassent les modèles actuels de pointe en termes d'alignement temporel et de pertinence sémantique tout en maintenant une qualité audio comparable. Le code source, des exemples, le jeu de données VisualSound et les modèles sont disponibles à l'adresse suivante : https://v-aura.notion.site

Alignement Temporel de l'Audio pour la Vidéo par Autoregression | Articles de recherche récents | HyperAI