HyperAIHyperAI
il y a 12 jours

Spleeter : un outil rapide et de pointe pour la séparation des sources musicales, intégrant des modèles pré-entraînés

{Manuel Moussallam, Romain Hennequin, Felix Voituret, Anis Khlif}
Résumé

Nous présentons et mettons à disposition un nouvel outil de séparation de sources musicales basé sur des modèles pré-entraînés, appelé Spleeter. Conçu avec pour objectifs la facilité d’utilisation, les performances de séparation et la rapidité, Spleeter repose sur TensorFlow [1] et permet de :• séparer des fichiers audio en 2, 4 ou 5 pistes (stems) à l’aide d’une simple commande en ligne, en utilisant des modèles pré-entraînés ;• entraîner des modèles de séparation de sources ou les affiner à partir de modèles pré-entraînés, via TensorFlow (à condition de disposer d’un jeu de données comprenant des sources isolées). Les performances des modèles pré-entraînés sont très proches de l’état de l’art publié, et, selon nos connaissances, Spleeter constitue le meilleur modèle de séparation en 4 pistes publié à ce jour sur le benchmark standard MusDB18 [6]. En outre, Spleeter est extrêmement rapide : il peut séparer un fichier audio mixé en 4 pistes à une vitesse 100 fois supérieure à celle du temps réel sur une seule unité de traitement graphique (GPU), en utilisant le modèle pré-entraîné en 4 pistes. Spleeter est empaqueté sous forme de conteneur Docker, ce qui le rend directement utilisable sur diverses plateformes.

Spleeter : un outil rapide et de pointe pour la séparation des sources musicales, intégrant des modèles pré-entraînés | Articles de recherche récents | HyperAI