il y a 4 mois

Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net

Voir les détails de l'article Voir le code

{Tillman Weyde Aparna Kumar Rachel Bittner Nicola Montecchio Eric Humphrey Andreas Jansson}

Résumé

La décomposition d’un signal audio musical en ses composantes vocales et instrumentales s’inscrit dans une analogie avec la translation image à image, où un spectrogramme mixte est transformé en ses sources constitutives. Nous proposons une nouvelle application de l’architecture U-Net — initialement conçue pour l’imagerie médicale — à la séparation de sources, en raison de sa capacité avérée à restituer les détails fins et de bas niveau nécessaires à une restitution audio de haute qualité. À travers des évaluations quantitatives et une évaluation subjective, les expériences démontrent que l’algorithme proposé atteint des performances de pointe.

Benchmarks

Benchmark	Méthodologie	Métriques
speech-separation-on-ikala	U-Net	NSDR: 11.094 (Vocal); 14.435 (Instrumental)

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net | Articles de recherche | HyperAI