HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Singing Voice Separation mit tiefen U-Net-Faltungsnetzwerken

{Tillman Weyde Aparna Kumar Rachel Bittner Nicola Montecchio Eric Humphrey Andreas Jansson}

Abstract

Die Zerlegung eines Musik-Audiosignals in seine Gesang- und Instrumentalbegleitkomponenten entspricht einer Bild-zu-Bild-Übersetzung, bei der ein gemischtes Spektragramm in seine einzelnen Quellen transformiert wird. Wir schlagen eine neuartige Anwendung der U-Net-Architektur vor – ursprünglich für die medizinische Bildverarbeitung entwickelt – für die Aufgabe der Quellentrennung, da sie sich als besonders geeignet erwiesen hat, feine, niedrigstufige Details wiederzugeben, die für eine hochwertige Audio-Wiedergabe erforderlich sind. Durch quantitative Bewertung und subjektive Beurteilung zeigen Experimente, dass der vorgeschlagene Algorithmus eine state-of-the-art-Leistung erzielt.

Benchmarks

BenchmarkMethodikMetriken
speech-separation-on-ikalaU-Net
NSDR: 11.094 (Vocal); 14.435 (Instrumental)

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Singing Voice Separation mit tiefen U-Net-Faltungsnetzwerken | Forschungsarbeiten | HyperAI