HyperAIHyperAI

Command Palette

Search for a command to run...

Musikquellentrennung basierend auf einem leichten Deep-Learning-Framework (DTTNET: DUAL-PATH TFC-TDF UNET)

Junyu Chen Susmitha Vekkot Pancham Shukla

Zusammenfassung

Die Musikquellentrennung (Music Source Separation, MSS) zielt darauf ab, aus einer gemischten Musikaufnahme die einzelnen Spuren „Gesang“, „Schlagzeug“, „Bass“ und „Sonstiges“ zu extrahieren. Obwohl tiefe Lernverfahren beeindruckende Ergebnisse erzielt haben, zeichnet sich ein Trend hin zu größeren Modellen ab. In unserer Arbeit stellen wir eine neuartige und leichtgewichtige Architektur namens DTTNet vor, die auf einem Dual-Path-Modul sowie zeit- und frequenzbasierten Faltungen (Time-Frequency Convolutions) und einer zeitverteilten vollständig verbundenen UNet-Struktur (TFC-TDF UNet) basiert. DTTNet erreicht eine cSDR von 10,12 dB für den „Gesang“ im Vergleich zu 10,01 dB, die für das Bandsplit-RNN (BSRNN) berichtet wurden, und verfügt dabei über 86,7 % weniger Parameter. Zudem evaluieren wir die leistungsbezogene Anpassung an spezifische Muster sowie die Generalisierbarkeit des Modells bei komplexen Audio-Mustern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp