CLAPSep : Exploiter un modèle pré-entraîné contrastif pour l'extraction sonore ciblée multi-modale conditionnée par la requête

La séparation universelle des sons (SUS) vise à extraire des types arbitraires de sons à partir d'enregistrements du monde réel. Cela peut être réalisé par l'extraction de sons cibles basée sur une requête linguistique (TSE), qui se compose généralement de deux composants : un réseau de requêtes qui convertit les requêtes utilisateur en plongements conditionnels, et un réseau de séparation qui extrait le son cible en conséquence. Les méthodes existantes entraînent généralement les modèles à partir de zéro. Par conséquent, des données importantes et des ressources informatiques substantielles sont nécessaires pour permettre au modèle initialisé aléatoirement de comprendre les événements sonores et d'effectuer la séparation en conséquence. Dans cet article, nous proposons d'intégrer des modèles pré-entraînés dans les modèles TSE pour résoudre ce problème. Plus précisément, nous adaptons le puissant modèle pré-entraîné par contraste linguistique-audio (CLAP) pour la SUS, dénommé CLAPSep. CLAPSep accepte également des entrées utilisateur flexibles, prenant en compte à la fois des prompts positifs et négatifs mono- et/ou multimodaux pour l'extraction de sons cibles. Ces caractéristiques clés de CLAPSep peuvent non seulement améliorer les performances d'extraction mais aussi augmenter la polyvalence de son application. Nous fournissons une série d'expériences approfondies sur 5 jeux de données variés pour démontrer les performances supérieures et la généralisabilité à zéro ou peu d'échantillons de notre CLAPSep proposé, avec une convergence rapide lors de l'entraînement, surpassant considérablement les méthodes précédentes. Le code complet et quelques exemples audio sont mis à disposition pour la reproduction et l'évaluation.