HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastives Lernen basierend auf tiefen latente Masken für die Musikquellentrennung

Hong-Goo Kang Jihyun Kim

Zusammenfassung

Neuere Studien zur Musikquellentrennung haben ihre Anwendbarkeit auf generische Audiosignale erweitert. Echtzeit-Anwendungen für die Musikquellentrennung sind notwendig, um Dienste wie anpassbare Equalizer bereitzustellen oder die Klangqualität bei Live-Streaming mit unterschiedlichen Effekten zu verbessern. Allerdings sind die meisten bisherigen Methoden aufgrund ihrer hohen Rechenkomplexität, des großen Speicherverbrauchs oder der langen Latenz für Echtzeitanwendungen ungeeignet. Um diese Probleme zu überwinden, schlagen wir ein Wave-U-Net-basiertes Netzwerk für die Musikquellentrennung vor, das hochdimensionale Maskierung zur Verarbeitung tiefer latenter Domänenmerkmale nutzt. Zudem führen wir eine kontrastive Lernmethode ein, um die herausragenden latente Raum-Embeddings jeder Zielquelle mittels eines maskierungsbasierten Ansatzes zu schätzen. Die Leistungsfähigkeit unseres vorgeschlagenen Modells wird anhand des MUSDB18HQ-Datensatzes im Vergleich zu mehreren Baseline-Modellen evaluiert. Die Experimente bestätigen, dass unser Modell Echtzeitverarbeitung ermöglicht und bestehende Modelle übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kontrastives Lernen basierend auf tiefen latente Masken für die Musikquellentrennung | Paper | HyperAI