HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net

{Tillman Weyde Aparna Kumar Rachel Bittner Nicola Montecchio Eric Humphrey Andreas Jansson}

Résumé

La décomposition d’un signal audio musical en ses composantes vocales et instrumentales s’inscrit dans une analogie avec la translation image à image, où un spectrogramme mixte est transformé en ses sources constitutives. Nous proposons une nouvelle application de l’architecture U-Net — initialement conçue pour l’imagerie médicale — à la séparation de sources, en raison de sa capacité avérée à restituer les détails fins et de bas niveau nécessaires à une restitution audio de haute qualité. À travers des évaluations quantitatives et une évaluation subjective, les expériences démontrent que l’algorithme proposé atteint des performances de pointe.

Benchmarks

BenchmarkMéthodologieMétriques
speech-separation-on-ikalaU-Net
NSDR: 11.094 (Vocal); 14.435 (Instrumental)

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net | Articles de recherche | HyperAI