Séparation de sources musicales dans le domaine du signal temporel

La séparation de sources pour la musique consiste à isoler les différentes contributions, ou « stems », provenant d'instruments enregistrés individuellement et combinés pour former une chanson. Ces composantes incluent la voix, le bass, les batteries ainsi que tout autre accompagnement. Contrairement à de nombreuses tâches de synthèse audio où les meilleurs résultats sont obtenus par des modèles générant directement le signal temporel (waveform), l’état de l’art en séparation de sources musicales repose sur le calcul de masques appliqués au spectre d’amplitude. Dans cet article, nous comparons deux architectures travaillant directement dans le domaine temporel. Nous adaptons d’abord Conv-Tasnet, initialement conçu pour la séparation de sources vocales, à la tâche de séparation de sources musicales. Bien que Conv-Tasnet surpasse de nombreux méthodes existantes basées sur le spectre, il présente des artefacts significatifs, comme le montrent les évaluations humaines. Nous proposons alors Demucs, un nouveau modèle « waveform-to-waveform » reposant sur une architecture U-Net et des LSTM bidirectionnels. Des expériences sur le jeu de données MusDB montrent qu’avec une augmentation adéquate des données, Demucs dépasse tous les architectures d’état de l’art existantes, y compris Conv-Tasnet, en atteignant une moyenne de 6,3 dB de SDR (Signal-to-Distortion Ratio), et jusqu’à 6,8 dB avec 150 chansons supplémentaires utilisées pour l’entraînement — dépassant même l’oracle IRM pour la source basse. Grâce aux récents progrès en quantification de modèles, Demucs peut être compressé à seulement 120 Mo sans perte de précision. Nous fournissons également des évaluations humaines, qui révèlent un avantage significatif de Demucs en termes de naturel du son. Toutefois, le modèle souffre d’un certain « débordement » (bleeding), particulièrement entre la voix et les autres sources.