HyperAIHyperAI
vor 16 Tagen

D3Net: Dicht verbundenes multidilatierendes DenseNet für die Musikquellentrennung

Naoya Takahashi, Yuki Mitsufuji
D3Net: Dicht verbundenes multidilatierendes DenseNet für die Musikquellentrennung
Abstract

Die Quellentrennung von Musik erfordert ein großes Eingabefeld, um langfristige Abhängigkeiten eines Audiosignals zu modellieren. Bisherige auf Faltungsneuronalen Netzen (CNN) basierende Ansätze adressieren die Modellierung großer Eingabefelder durch sequenzielle Down- und Upsampling von Feature-Maps oder durch dilatierte Faltung. In diesem Paper betonen wir die Bedeutung eines schnellen Wachstums des Rezeptivfeldes sowie der gleichzeitigen Modellierung von Daten auf mehreren Auflösungen innerhalb einer einzigen Faltungsschicht und stellen eine neuartige CNN-Architektur namens densely connected dilated DenseNet (D3Net) vor. D3Net integriert eine neuartige Multi-dilatierte Faltung, die in einer einzelnen Schicht unterschiedliche Dilatationsfaktoren verwendet, um verschiedene Auflösungen gleichzeitig zu modellieren. Durch die Kombination der Multi-dilatierten Faltung mit der DenseNet-Architektur vermeidet D3Net das Aliasing-Problem, das auftritt, wenn dilatierte Faltungen naiv in DenseNet integriert werden. Experimentelle Ergebnisse auf dem MUSDB18-Datensatz zeigen, dass D3Net eine state-of-the-art-Leistung erzielt, wobei die durchschnittliche Signal-zu-Störungsverhältnis (SDR) bei 6,01 dB liegt.

D3Net: Dicht verbundenes multidilatierendes DenseNet für die Musikquellentrennung | Neueste Forschungsarbeiten | HyperAI