HyperAIHyperAI

Command Palette

Search for a command to run...

Séparation de sources musicales dans le domaine du signal temporel

Alexandre Défossez Nicolas Usunier Léon Bottou Francis Bach

Résumé

La séparation de sources pour la musique consiste à isoler les différentes contributions, ou « stems », provenant d'instruments enregistrés individuellement et combinés pour former une chanson. Ces composantes incluent la voix, le bass, les batteries ainsi que tout autre accompagnement. Contrairement à de nombreuses tâches de synthèse audio où les meilleurs résultats sont obtenus par des modèles générant directement le signal temporel (waveform), l’état de l’art en séparation de sources musicales repose sur le calcul de masques appliqués au spectre d’amplitude. Dans cet article, nous comparons deux architectures travaillant directement dans le domaine temporel. Nous adaptons d’abord Conv-Tasnet, initialement conçu pour la séparation de sources vocales, à la tâche de séparation de sources musicales. Bien que Conv-Tasnet surpasse de nombreux méthodes existantes basées sur le spectre, il présente des artefacts significatifs, comme le montrent les évaluations humaines. Nous proposons alors Demucs, un nouveau modèle « waveform-to-waveform » reposant sur une architecture U-Net et des LSTM bidirectionnels. Des expériences sur le jeu de données MusDB montrent qu’avec une augmentation adéquate des données, Demucs dépasse tous les architectures d’état de l’art existantes, y compris Conv-Tasnet, en atteignant une moyenne de 6,3 dB de SDR (Signal-to-Distortion Ratio), et jusqu’à 6,8 dB avec 150 chansons supplémentaires utilisées pour l’entraînement — dépassant même l’oracle IRM pour la source basse. Grâce aux récents progrès en quantification de modèles, Demucs peut être compressé à seulement 120 Mo sans perte de précision. Nous fournissons également des évaluations humaines, qui révèlent un avantage significatif de Demucs en termes de naturel du son. Toutefois, le modèle souffre d’un certain « débordement » (bleeding), particulièrement entre la voix et les autres sources.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Séparation de sources musicales dans le domaine du signal temporel | Articles | HyperAI