Un cadre efficace basé sur la transformation en cosinus discrète à court terme et sur MultiResUNet à attention pour la séparation des sources musicales
Le problème de séparation de sources musicales, dont l’objectif consiste à estimer les composantes audio présentes dans un mélange, fait l’objet de recherches intensives depuis de nombreuses années. Dans les approches récentes, ce problème est abordé en développant des modèles d’apprentissage profond qui tentent d’extraire des informations à partir de chaque composante en utilisant des spectrogrammes obtenus par transformation de Fourier à court terme (STFT) comme entrée. La plupart des méthodes supposent qu’une seule source est présente à chaque point temps-fréquence, ce qui permet d’attribuer ce point du mélange à la source souhaitée. Toutefois, cette hypothèse est forte et n’est pas toujours vérifiée en pratique, ce qui pose un problème crucial : l’absence d’information de phase de Fourier lors de la reconstruction des sources séparées, en raison de l’utilisation exclusive de l’amplitude du STFT comme entrée des réseaux. Le recouvrement de l’information de phase de Fourier n’est ni facile à traiter ni efficace du point de vue computationnel. Dans cet article, nous proposons une architecture novatrice appelée Attentive MultiResUNet, qui utilise comme entrée des données réelles issues de la transformation cosinus discrète à court terme (DCT). Cette approche permet d’éviter le problème du recouvrement de phase, en estimant directement les valeurs appropriées à l’intérieur du réseau, sans recourir à des algorithmes complexes d’estimation ou de post-traitement. La structure proposée repose sur un modèle de type U-Net, enrichi de connexions résiduelles et d’un mécanisme d’attention qui établit une corrélation entre les connexions de saut et la sortie du décodeur au niveau précédent. Cette architecture est utilisée pour la première fois dans le domaine de la séparation de sources et s’avère plus efficace sur le plan computationnel que les réseaux de séparation les plus avancés, tout en offrant des performances comparables à l’état de l’art, avec un coût computationnel réduit d’un facteur significatif.