HyperAIHyperAI
vor 11 Tagen

Musikquellentrennung basierend auf einem leichten Deep-Learning-Framework (DTTNET: DUAL-PATH TFC-TDF UNET)

Junyu Chen, Susmitha Vekkot, Pancham Shukla
Musikquellentrennung basierend auf einem leichten Deep-Learning-Framework (DTTNET: DUAL-PATH TFC-TDF UNET)
Abstract

Die Musikquellentrennung (Music Source Separation, MSS) zielt darauf ab, aus einer gemischten Musikaufnahme die einzelnen Spuren „Gesang“, „Schlagzeug“, „Bass“ und „Sonstiges“ zu extrahieren. Obwohl tiefe Lernverfahren beeindruckende Ergebnisse erzielt haben, zeichnet sich ein Trend hin zu größeren Modellen ab. In unserer Arbeit stellen wir eine neuartige und leichtgewichtige Architektur namens DTTNet vor, die auf einem Dual-Path-Modul sowie zeit- und frequenzbasierten Faltungen (Time-Frequency Convolutions) und einer zeitverteilten vollständig verbundenen UNet-Struktur (TFC-TDF UNet) basiert. DTTNet erreicht eine cSDR von 10,12 dB für den „Gesang“ im Vergleich zu 10,01 dB, die für das Bandsplit-RNN (BSRNN) berichtet wurden, und verfügt dabei über 86,7 % weniger Parameter. Zudem evaluieren wir die leistungsbezogene Anpassung an spezifische Muster sowie die Generalisierbarkeit des Modells bei komplexen Audio-Mustern.

Musikquellentrennung basierend auf einem leichten Deep-Learning-Framework (DTTNET: DUAL-PATH TFC-TDF UNET) | Neueste Forschungsarbeiten | HyperAI