HyperAIHyperAI

Command Palette

Search for a command to run...

CLAPSep : Exploiter un modèle pré-entraîné contrastif pour l'extraction sonore ciblée multi-modale conditionnée par la requête

Hao Ma Zhiyuan Peng Xu Li Mingjie Shao Xixin Wu Ju Liu

Résumé

La séparation universelle des sons (SUS) vise à extraire des types arbitraires de sons à partir d'enregistrements du monde réel. Cela peut être réalisé par l'extraction de sons cibles basée sur une requête linguistique (TSE), qui se compose généralement de deux composants : un réseau de requêtes qui convertit les requêtes utilisateur en plongements conditionnels, et un réseau de séparation qui extrait le son cible en conséquence. Les méthodes existantes entraînent généralement les modèles à partir de zéro. Par conséquent, des données importantes et des ressources informatiques substantielles sont nécessaires pour permettre au modèle initialisé aléatoirement de comprendre les événements sonores et d'effectuer la séparation en conséquence. Dans cet article, nous proposons d'intégrer des modèles pré-entraînés dans les modèles TSE pour résoudre ce problème. Plus précisément, nous adaptons le puissant modèle pré-entraîné par contraste linguistique-audio (CLAP) pour la SUS, dénommé CLAPSep. CLAPSep accepte également des entrées utilisateur flexibles, prenant en compte à la fois des prompts positifs et négatifs mono- et/ou multimodaux pour l'extraction de sons cibles. Ces caractéristiques clés de CLAPSep peuvent non seulement améliorer les performances d'extraction mais aussi augmenter la polyvalence de son application. Nous fournissons une série d'expériences approfondies sur 5 jeux de données variés pour démontrer les performances supérieures et la généralisabilité à zéro ou peu d'échantillons de notre CLAPSep proposé, avec une convergence rapide lors de l'entraînement, surpassant considérablement les méthodes précédentes. Le code complet et quelques exemples audio sont mis à disposition pour la reproduction et l'évaluation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp