LaSAFT: Latent Source Attentive Frequency Transformation für konditionierte Quellentrennung

Kürzlich vorgestellte Ansätze der tiefen Lernverfahren haben gezeigt, dass Frequency Transformation (FT)-Blöcke die Leistung von Spektrogramm-basierten Einzelquellentrennmodellen erheblich verbessern können, indem sie Frequenzmuster erfassen. Ziel dieser Arbeit ist es, den FT-Block auf Aufgaben mit mehreren Quellen zu erweitern. Wir stellen den Latent Source Attentive Frequency Transformation (LaSAFT)-Block vor, um quellenabhängige Frequenzmuster zu erfassen. Außerdem führen wir die Gated Point-wise Convolutional Modulation (GPoCM) ein, eine Erweiterung der Feature-wise Linear Modulation (FiLM), um interne Merkmale zu modulieren. Durch die Kombination dieser beiden neuartigen Methoden erweitern wir den Conditioned-U-Net (CUNet) für die Mehrquellentrennung. Die experimentellen Ergebnisse zeigen, dass unsere LaSAFT- und GPoCM-Methoden die Leistung des CUNet verbessern und eine state-of-the-art-SDR-Leistung bei mehreren MUSDB18-Aufgaben zur Quellentrennung erzielen.