HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchisches zeitliches Faltungsnetzwerk mit cross-domain Encoder für die Musikquellentrennung

Hao Huang Liang He Wenzhong Yang Yadong Chen Ying Hu

Zusammenfassung

Kürzlich haben time-domain-basierte Methoden (d. h. Verfahren, die die Rohwellenform direkt modellieren) für die Audio-Quellentrennung erhebliches Potenzial gezeigt. In diesem Artikel stellen wir ein Modell vor, das komplexe Spektrogramm-Domänen-Feature und Zeitdomänen-Feature durch einen Cross-Domain-Encoder (CDE) kombiniert und eine hierarchische zeitliche Faltungsnetzwerkarchitektur (HTCN) für die Trennung mehrerer Musikquellen einsetzt. Der CDE ist speziell darauf ausgelegt, dem Netzwerk die Kodierung interaktiver Informationen zwischen Zeit- und komplexen Spektrogramm-Domänen-Features zu ermöglichen. Die HTCN ermöglicht eine effektive Erfassung langfristiger zeitlicher Abhängigkeiten. Zudem haben wir eine Feature-Calibration-Einheit (FCU) entworfen, die in die HTCN integriert wird, und eine mehrstufige Trainingsstrategie während des Trainingsprozesses angewendet. Eine Ablationsstudie belegt die Wirksamkeit jedes einzelnen Komponenten im Modell. Die Experimente wurden auf dem MUSDB18-Datensatz durchgeführt. Die Ergebnisse zeigen, dass unser vorgeschlagenes CDE-HTCN-Modell die führenden Methoden übertrifft und im Vergleich zur State-of-the-Art-Methode DEMUCS eine Verbesserung des durchschnittlichen SDR-Werts um 0,61 dB erreicht. Insbesondere zeigt sich für die Bassquelle eine bemerkenswerte Verbesserung des SDR-Werts um 0,91 dB.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp