HyperAIHyperAI
il y a 16 jours

Séparation de sources hybride spectrogramme et forme d'onde

Alexandre Défossez
Séparation de sources hybride spectrogramme et forme d'onde
Résumé

Les modèles de séparation de sources opèrent soit dans le domaine du spectrogramme, soit dans celui du signal temporel (waveform). Dans ce travail, nous montrons comment réaliser une séparation de sources hybride en boucle complète, en permettant au modèle de déterminer individuellement, pour chaque source, le domaine le plus adapté, voire de combiner les deux. La version hybride proposée de l'architecture Demucs a remporté le Music Demixing Challenge 2021 organisé par Sony. Cette architecture intègre également plusieurs améliorations supplémentaires, telles que des branches résiduelles compressées, une attention locale ou une régularisation par valeurs singulières. Globalement, une amélioration de 1,4 dB du rapport signal à distorsion (SDR) a été observée sur toutes les sources, mesurée sur le jeu de données MusDB HQ, une amélioration confirmée par une évaluation subjective humaine, avec une qualité globale notée à 2,83 sur 5 (2,36 pour le Demucs non hybride), et une absence de contamination évaluée à 3,04 (contre 2,37 pour le Demucs non hybride et 2,44 pour le deuxième modèle classé lors du concours).

Séparation de sources hybride spectrogramme et forme d'onde | Articles de recherche récents | HyperAI