HyperAIHyperAI
vor 16 Tagen

Hierarchisches zeitliches Faltungsnetzwerk mit cross-domain Encoder für die Musikquellentrennung

{Hao Huang, Liang He, Wenzhong Yang, Yadong Chen, Ying Hu}
Abstract

Kürzlich haben time-domain-basierte Methoden (d. h. Verfahren, die die Rohwellenform direkt modellieren) für die Audio-Quellentrennung erhebliches Potenzial gezeigt. In diesem Artikel stellen wir ein Modell vor, das komplexe Spektrogramm-Domänen-Feature und Zeitdomänen-Feature durch einen Cross-Domain-Encoder (CDE) kombiniert und eine hierarchische zeitliche Faltungsnetzwerkarchitektur (HTCN) für die Trennung mehrerer Musikquellen einsetzt. Der CDE ist speziell darauf ausgelegt, dem Netzwerk die Kodierung interaktiver Informationen zwischen Zeit- und komplexen Spektrogramm-Domänen-Features zu ermöglichen. Die HTCN ermöglicht eine effektive Erfassung langfristiger zeitlicher Abhängigkeiten. Zudem haben wir eine Feature-Calibration-Einheit (FCU) entworfen, die in die HTCN integriert wird, und eine mehrstufige Trainingsstrategie während des Trainingsprozesses angewendet. Eine Ablationsstudie belegt die Wirksamkeit jedes einzelnen Komponenten im Modell. Die Experimente wurden auf dem MUSDB18-Datensatz durchgeführt. Die Ergebnisse zeigen, dass unser vorgeschlagenes CDE-HTCN-Modell die führenden Methoden übertrifft und im Vergleich zur State-of-the-Art-Methode DEMUCS eine Verbesserung des durchschnittlichen SDR-Werts um 0,61 dB erreicht. Insbesondere zeigt sich für die Bassquelle eine bemerkenswerte Verbesserung des SDR-Werts um 0,91 dB.

Hierarchisches zeitliches Faltungsnetzwerk mit cross-domain Encoder für die Musikquellentrennung | Neueste Forschungsarbeiten | HyperAI