Command Palette
Search for a command to run...
Kontrastives Lernen basierend auf tiefen latente Masken für die Musikquellentrennung
Kontrastives Lernen basierend auf tiefen latente Masken für die Musikquellentrennung
Hong-Goo Kang Jihyun Kim
Zusammenfassung
Neuere Studien zur Musikquellentrennung haben ihre Anwendbarkeit auf generische Audiosignale erweitert. Echtzeit-Anwendungen für die Musikquellentrennung sind notwendig, um Dienste wie anpassbare Equalizer bereitzustellen oder die Klangqualität bei Live-Streaming mit unterschiedlichen Effekten zu verbessern. Allerdings sind die meisten bisherigen Methoden aufgrund ihrer hohen Rechenkomplexität, des großen Speicherverbrauchs oder der langen Latenz für Echtzeitanwendungen ungeeignet. Um diese Probleme zu überwinden, schlagen wir ein Wave-U-Net-basiertes Netzwerk für die Musikquellentrennung vor, das hochdimensionale Maskierung zur Verarbeitung tiefer latenter Domänenmerkmale nutzt. Zudem führen wir eine kontrastive Lernmethode ein, um die herausragenden latente Raum-Embeddings jeder Zielquelle mittels eines maskierungsbasierten Ansatzes zu schätzen. Die Leistungsfähigkeit unseres vorgeschlagenen Modells wird anhand des MUSDB18HQ-Datensatzes im Vergleich zu mehreren Baseline-Modellen evaluiert. Die Experimente bestätigen, dass unser Modell Echtzeitverarbeitung ermöglicht und bestehende Modelle übertrifft.