HyperAIHyperAI
vor 11 Tagen

Hybride Transformers für die Musikquellentrennung

Simon Rouard, Francisco Massa, Alexandre Défossez
Hybride Transformers für die Musikquellentrennung
Abstract

Eine naheliegende Frage in der Musikquellentrennung (Music Source Separation, MSS) lautet, ob langfristige kontextuelle Informationen nützlich sind oder ob lokale akustische Merkmale ausreichen. In anderen Forschungsbereichen haben auf Aufmerksamkeit basierende Transformer ihre Fähigkeit demonstriert, Informationen über lange Sequenzen hinweg zu integrieren. In dieser Arbeit stellen wir Hybrid Transformer Demucs (HT Demucs) vor, einen hybriden zeitlichen/spektralen bi-U-Net-Architektur, der auf Hybrid Demucs basiert, wobei die innersten Schichten durch einen cross-domain Transformer-Encoder ersetzt werden, der sowohl Selbst-Aufmerksamkeit innerhalb einer Domäne als auch Kreuz-Aufmerksamkeit zwischen Domänen nutzt. Während HT Demucs bei Training ausschließlich auf MUSDB schlecht abschneidet, zeigen wir, dass er Hybrid Demucs (das auf denselben Daten trainiert wurde) bei Verwendung von 800 zusätzlichen Trainingsliedern um 0,45 dB SDR übertrifft. Durch die Verwendung von sparsen Aufmerksamkeitskernen zur Erweiterung des Rezeptionsfelds und einer feinabgestimmten Anpassung pro Quelle erreichen wir mit zusätzlichen Trainingsdaten Spitzenleistungen auf MUSDB, wobei ein SDR von 9,20 dB erzielt wird.

Hybride Transformers für die Musikquellentrennung | Neueste Forschungsarbeiten | HyperAI