HyperAIHyperAI

Command Palette

Search for a command to run...

D3Net: Dicht verbundenes multidilatierendes DenseNet für die Musikquellentrennung

Naoya Takahashi Yuki Mitsufuji

Zusammenfassung

Die Quellentrennung von Musik erfordert ein großes Eingabefeld, um langfristige Abhängigkeiten eines Audiosignals zu modellieren. Bisherige auf Faltungsneuronalen Netzen (CNN) basierende Ansätze adressieren die Modellierung großer Eingabefelder durch sequenzielle Down- und Upsampling von Feature-Maps oder durch dilatierte Faltung. In diesem Paper betonen wir die Bedeutung eines schnellen Wachstums des Rezeptivfeldes sowie der gleichzeitigen Modellierung von Daten auf mehreren Auflösungen innerhalb einer einzigen Faltungsschicht und stellen eine neuartige CNN-Architektur namens densely connected dilated DenseNet (D3Net) vor. D3Net integriert eine neuartige Multi-dilatierte Faltung, die in einer einzelnen Schicht unterschiedliche Dilatationsfaktoren verwendet, um verschiedene Auflösungen gleichzeitig zu modellieren. Durch die Kombination der Multi-dilatierten Faltung mit der DenseNet-Architektur vermeidet D3Net das Aliasing-Problem, das auftritt, wenn dilatierte Faltungen naiv in DenseNet integriert werden. Experimentelle Ergebnisse auf dem MUSDB18-Datensatz zeigen, dass D3Net eine state-of-the-art-Leistung erzielt, wobei die durchschnittliche Signal-zu-Störungsverhältnis (SDR) bei 6,01 dB liegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
D3Net: Dicht verbundenes multidilatierendes DenseNet für die Musikquellentrennung | Paper | HyperAI