HyperAIHyperAI
vor 15 Tagen

Singing Voice Separation mit tiefen U-Net-Faltungsnetzwerken

{Tillman Weyde, Aparna Kumar, Rachel Bittner, Nicola Montecchio, Eric Humphrey, Andreas Jansson}
Abstract

Die Zerlegung eines Musik-Audiosignals in seine Gesang- und Instrumentalbegleitkomponenten entspricht einer Bild-zu-Bild-Übersetzung, bei der ein gemischtes Spektragramm in seine einzelnen Quellen transformiert wird. Wir schlagen eine neuartige Anwendung der U-Net-Architektur vor – ursprünglich für die medizinische Bildverarbeitung entwickelt – für die Aufgabe der Quellentrennung, da sie sich als besonders geeignet erwiesen hat, feine, niedrigstufige Details wiederzugeben, die für eine hochwertige Audio-Wiedergabe erforderlich sind. Durch quantitative Bewertung und subjektive Beurteilung zeigen Experimente, dass der vorgeschlagene Algorithmus eine state-of-the-art-Leistung erzielt.

Singing Voice Separation mit tiefen U-Net-Faltungsnetzwerken | Neueste Forschungsarbeiten | HyperAI