Command Palette
Search for a command to run...
SCNet: Sparse Compression Network für die Musikquellentrennung
SCNet: Sparse Compression Network für die Musikquellentrennung
Weinan Tong Jiaxu Zhu Jun Chen Shiyin Kang Tao Jiang Yang Li Zhiyong Wu Helen Meng
Zusammenfassung
Basiert auf Deep Learning entwickelte Methoden haben erhebliche Fortschritte bei der Trennung musikalischer Quellen erzielt. Dennoch bleibt die Erzielung guter Ergebnisse bei gleichzeitig niedrigem Modellkomplexitätsaufwand bei der Super-Weitband-Trennung musikalischer Quellen eine Herausforderung. Bisherige Ansätze vernachlässigen entweder die Unterschiede zwischen Teilbändern oder behandeln das Problem des Informationsverlusts bei der Generierung von Teilband-Features unzureichend. In diesem Artikel stellen wir SCNet vor, ein neuartiges Frequenzraum-Netzwerk, das das Spektrum der Mischung explizit in mehrere Teilbänder aufteilt und einen sparsitätsbasierten Encoder einführt, um unterschiedliche Frequenzbänder effektiv zu modellieren. Wir setzen eine höhere Kompressionsrate auf Teilbänder mit geringerem Informationsgehalt ein, um die Informationsdichte zu steigern, und konzentrieren uns stärker auf die Modellierung von Teilbändern mit höherem Informationsgehalt. Auf diese Weise lässt sich die Trennleistung signifikant verbessern, während gleichzeitig die Berechnungskosten reduziert werden. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Modell auf dem MUSDB18-HQ-Datensatz ohne Verwendung zusätzlicher Daten eine Signal-zu-Störungs-Verhältnis (SDR) von 9,0 dB erreicht, was die bisherigen Spitzenmethoden übertrifft. Insbesondere beträgt die CPU-Inferenzzeit von SCNet nur 48 % der von HT Demucs, einer der vorherigen State-of-the-Art-Modelle.