HyperAIHyperAI
il y a 2 mois

V2A-Mapper : Une solution légère pour la génération vision-à-audio en connectant des modèles fondamentaux

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper : Une solution légère pour la génération vision-à-audio en connectant des modèles fondamentaux
Résumé

La construction de systèmes d'intelligence artificielle (IA) basés sur un ensemble de modèles fondamentaux (MF) devient une nouvelle paradigme dans la recherche en IA. Les capacités représentatives et génératives acquises par ces modèles à partir de vastes quantités de données peuvent être facilement adaptées et transférées à une large gamme de tâches en aval sans nécessiter un entraînement supplémentaire à partir de zéro. Cependant, l'exploitation des MF dans la génération transmodale reste sous-étudiée lorsque la modalité sonore est impliquée. D'autre part, la génération automatique de sons sémantiquement pertinents à partir d'une entrée visuelle constitue un problème important dans les études de génération transmodale.Pour résoudre ce problème de génération vision-sound (V2A), les méthodes existantes tendent à concevoir et construire des systèmes complexes à partir de zéro en utilisant des jeux de données de taille modeste. Dans cet article, nous proposons une solution légère à ce problème en exploitant des modèles fondamentaux, notamment CLIP, CLAP et AudioLDM. Nous commençons par examiner l'écart entre les espaces latents du modèle visuel CLIP et du modèle auditif CLAP. Ensuite, nous proposons un mécanisme simple mais efficace (V2A-Mapper) pour combler cet écart en traduisant l'entrée visuelle entre les espaces CLIP et CLAP.Conditionné par l'embedding CLAP traduit, le modèle pré-entraîné AudioLDM est utilisé pour produire des sons haute fidélité et alignés visuellement. Comparé aux approches précédentes, notre méthode ne nécessite qu'un entraînement rapide du V2A-Mapper. Nous analysons également en profondeur et menons des expériences extensives sur le choix du V2A-Mapper, montrant qu'un mapper génératif est meilleur en termes de fidélité et variabilité (FD), tandis qu'un mapper régressif est légèrement meilleur en termes de pertinence (CS).Des évaluations objectives et subjectives sur deux jeux de données V2A démontrent la supériorité de notre méthode proposée par rapport aux approches actuelles les plus avancées : formée avec 86 % moins de paramètres, elle réalise toutefois des améliorations respectivement de 53 % et 19 % en FD et CS.