HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers hybrides pour la séparation de sources musicales

Simon Rouard Francisco Massa Alexandre Défossez

Résumé

Une question naturelle qui se pose dans le domaine de la séparation de sources musicales (MSS) est de savoir si les informations contextuelles à longue portée sont utiles, ou si les caractéristiques acoustiques locales s’avèrent suffisantes. Dans d’autres domaines, les modèles basés sur l’attention, tels que les Transformers, ont démontré leur capacité à intégrer efficacement des informations sur de longues séquences. Dans ce travail, nous introduisons HT Demucs (Hybrid Transformer Demucs), une architecture hybride temporelle/spectrale de type bi-U-Net, fondée sur Hybrid Demucs, dont les couches les plus internes sont remplacées par un encodeur Transformer à croisement de domaines, exploitant l’attention autonome au sein d’un même domaine et l’attention croisée entre domaines. Bien que sa performance soit médiocre lorsqu’il est entraîné uniquement sur MUSDB, nous montrons qu’il surpasser Hybrid Demucs (entraîné sur les mêmes données) de 0,45 dB en SDR lorsqu’il bénéficie de 800 chansons supplémentaires pour l’entraînement. En utilisant des noyaux d’attention éparse pour étendre son champ réceptif, ainsi qu’un fin-tuning par source, nous atteignons des résultats de pointe sur MUSDB avec des données d’entraînement supplémentaires, avec un SDR de 9,20 dB.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp