HyperAIHyperAI
il y a 15 jours

Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net

{Tillman Weyde, Aparna Kumar, Rachel Bittner, Nicola Montecchio, Eric Humphrey, Andreas Jansson}
Résumé

La décomposition d’un signal audio musical en ses composantes vocales et instrumentales s’inscrit dans une analogie avec la translation image à image, où un spectrogramme mixte est transformé en ses sources constitutives. Nous proposons une nouvelle application de l’architecture U-Net — initialement conçue pour l’imagerie médicale — à la séparation de sources, en raison de sa capacité avérée à restituer les détails fins et de bas niveau nécessaires à une restitution audio de haute qualité. À travers des évaluations quantitatives et une évaluation subjective, les expériences démontrent que l’algorithme proposé atteint des performances de pointe.

Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net | Articles de recherche récents | HyperAI