HyperAIHyperAI

Command Palette

Search for a command to run...

V2A-Mapper : Une solution légère pour la génération vision-à-audio en connectant des modèles fondamentaux

Heng Wang Jianbo Ma Santiago Pascual Richard Cartwright Weidong Cai

Résumé

La construction de systèmes d'intelligence artificielle (IA) basés sur un ensemble de modèles fondamentaux (MF) devient une nouvelle paradigme dans la recherche en IA. Les capacités représentatives et génératives acquises par ces modèles à partir de vastes quantités de données peuvent être facilement adaptées et transférées à une large gamme de tâches en aval sans nécessiter un entraînement supplémentaire à partir de zéro. Cependant, l'exploitation des MF dans la génération transmodale reste sous-étudiée lorsque la modalité sonore est impliquée. D'autre part, la génération automatique de sons sémantiquement pertinents à partir d'une entrée visuelle constitue un problème important dans les études de génération transmodale.Pour résoudre ce problème de génération vision-sound (V2A), les méthodes existantes tendent à concevoir et construire des systèmes complexes à partir de zéro en utilisant des jeux de données de taille modeste. Dans cet article, nous proposons une solution légère à ce problème en exploitant des modèles fondamentaux, notamment CLIP, CLAP et AudioLDM. Nous commençons par examiner l'écart entre les espaces latents du modèle visuel CLIP et du modèle auditif CLAP. Ensuite, nous proposons un mécanisme simple mais efficace (V2A-Mapper) pour combler cet écart en traduisant l'entrée visuelle entre les espaces CLIP et CLAP.Conditionné par l'embedding CLAP traduit, le modèle pré-entraîné AudioLDM est utilisé pour produire des sons haute fidélité et alignés visuellement. Comparé aux approches précédentes, notre méthode ne nécessite qu'un entraînement rapide du V2A-Mapper. Nous analysons également en profondeur et menons des expériences extensives sur le choix du V2A-Mapper, montrant qu'un mapper génératif est meilleur en termes de fidélité et variabilité (FD), tandis qu'un mapper régressif est légèrement meilleur en termes de pertinence (CS).Des évaluations objectives et subjectives sur deux jeux de données V2A démontrent la supériorité de notre méthode proposée par rapport aux approches actuelles les plus avancées : formée avec 86 % moins de paramètres, elle réalise toutefois des améliorations respectivement de 53 % et 19 % en FD et CS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp