Transformers hybrides pour la séparation de sources musicales

Une question naturelle qui se pose dans le domaine de la séparation de sources musicales (MSS) est de savoir si les informations contextuelles à longue portée sont utiles, ou si les caractéristiques acoustiques locales s’avèrent suffisantes. Dans d’autres domaines, les modèles basés sur l’attention, tels que les Transformers, ont démontré leur capacité à intégrer efficacement des informations sur de longues séquences. Dans ce travail, nous introduisons HT Demucs (Hybrid Transformer Demucs), une architecture hybride temporelle/spectrale de type bi-U-Net, fondée sur Hybrid Demucs, dont les couches les plus internes sont remplacées par un encodeur Transformer à croisement de domaines, exploitant l’attention autonome au sein d’un même domaine et l’attention croisée entre domaines. Bien que sa performance soit médiocre lorsqu’il est entraîné uniquement sur MUSDB, nous montrons qu’il surpasser Hybrid Demucs (entraîné sur les mêmes données) de 0,45 dB en SDR lorsqu’il bénéficie de 800 chansons supplémentaires pour l’entraînement. En utilisant des noyaux d’attention éparse pour étendre son champ réceptif, ainsi qu’un fin-tuning par source, nous atteignons des résultats de pointe sur MUSDB avec des données d’entraînement supplémentaires, avec un SDR de 9,20 dB.