Command Palette
Search for a command to run...
Séparation de voix chantée à l’aide de réseaux convolutionnels profonds U-Net
{Tillman Weyde Aparna Kumar Rachel Bittner Nicola Montecchio Eric Humphrey Andreas Jansson}
Résumé
La décomposition d’un signal audio musical en ses composantes vocales et instrumentales s’inscrit dans une analogie avec la translation image à image, où un spectrogramme mixte est transformé en ses sources constitutives. Nous proposons une nouvelle application de l’architecture U-Net — initialement conçue pour l’imagerie médicale — à la séparation de sources, en raison de sa capacité avérée à restituer les détails fins et de bas niveau nécessaires à une restitution audio de haute qualité. À travers des évaluations quantitatives et une évaluation subjective, les expériences démontrent que l’algorithme proposé atteint des performances de pointe.
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| speech-separation-on-ikala | U-Net | NSDR: 11.094 (Vocal); 14.435 (Instrumental) |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.