HyperAIHyperAI
il y a 2 mois

Lire, Regarder et Crier ! Génération de Son à partir de Texte et Vidéo

Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung
Lire, Regarder et Crier ! Génération de Son à partir de Texte et Vidéo
Résumé

Malgré les progrès impressionnants des modèles génératifs multimodaux, la génération audio à partir de vidéo souffre encore d'une performance limitée et restreint la flexibilité pour prioriser la synthèse sonore d'objets spécifiques au sein de la scène. À l'inverse, les méthodes de génération audio à partir du texte produisent un audio de haute qualité mais posent des défis en termes de représentation complète de la scène et de contrôle temporel. Pour relever ces défis, nous proposons une nouvelle méthode de génération audio à partir de vidéo et de texte, appelée \ours, où la vidéo sert de contrôle conditionnel pour un modèle de génération audio à partir du texte. Notamment, notre méthode estime les informations structurelles du son (à savoir, l'énergie) à partir de la vidéo tout en recevant des indices clés sur le contenu d'un prompt utilisateur. Nous utilisons un modèle performant de génération audio à partir du texte pour consolider le contrôle vidéo, ce qui est beaucoup plus efficace pour entraîner des modèles de diffusion multimodaux avec des données massives triplement appariées (audio-vidéo-texte). De plus, en séparant les composants génératifs du son, notre système devient plus flexible, permettant aux utilisateurs d'ajuster librement l'énergie, l'environnement ambiant et la source sonore principale selon leurs préférences. Les résultats expérimentaux démontrent que notre méthode présente une supériorité en termes de qualité, contrôlabilité et efficacité d'entraînement. Le code source et une démonstration sont disponibles à l'adresse suivante : https://naver-ai.github.io/rewas.

Lire, Regarder et Crier ! Génération de Son à partir de Texte et Vidéo | Articles de recherche récents | HyperAI