HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par contraste basé sur une masquage profond latent pour la séparation des sources musicales

Hong-Goo Kang Jihyun Kim

Résumé

Des études récentes sur la séparation de sources musicales ont étendu leur applicabilité aux signaux audio génériques. Les applications en temps réel de la séparation de sources musicales sont essentielles pour offrir des services tels que des égaliseurs personnalisés ou pour améliorer la qualité sonore des diffusions en direct grâce à divers effets. Toutefois, la plupart des méthodes antérieures ne conviennent pas à ces applications en temps réel en raison de leur complexité computationnelle élevée, de leur usage important de mémoire ou de leur latence importante. Pour surmonter ces limitations, nous proposons un réseau de séparation de sources musicales de type Wave-U-Net, qui exploite un masquage à haute dimension pour les caractéristiques latentes profondes. Nous introduisons également une technique d’apprentissage contrastif afin d’estimer l’encodage latent significatif de chaque source cible via une approche basée sur le masquage. La performance de notre modèle est évaluée sur le jeu de données MUSDB18HQ en comparaison avec plusieurs méthodes de référence. Les expériences confirment que notre modèle est capable de traitement en temps réel et dépasse les modèles existants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp