Zero-shot Audio Source Separation durch abfragbasiertes Lernen aus schwach beschrifteten Daten

Deep-Learning-Techniken zur Trennung von Audio in verschiedene Klangquellen stoßen auf mehrere Herausforderungen. Standardarchitekturen erfordern die Schulung getrennter Modelle für unterschiedliche Arten von Audioquellen. Obwohl einige universelle Trennsysteme ein einziges Modell einsetzen, um mehrere Quellen zu erfassen, haben sie Schwierigkeiten, sich auf bisher nicht gesehene Quellen zu verallgemeinern. In diesem Paper stellen wir eine dreiteilige Pipeline vor, um einen universellen Audio-Quellentrenner aus einem großen, jedoch schwach beschrifteten Datensatz – AudioSet – zu trainieren. Erstens schlagen wir ein auf Transformers basierendes System zur Erkennung von Klangereignissen vor, das schwach beschriftete Trainingsdaten verarbeitet. Zweitens entwickeln wir ein abfragbares Audio-Trennmodell, das diese Daten zur Modelltrainierung nutzt. Drittens entwerfen wir einen latenten Embedding-Processor, der Abfragen kodiert, die die zu trennenden Audioziele spezifizieren, wodurch eine Zero-Shot-Verallgemeinerung ermöglicht wird. Unser Ansatz verwendet ein einziges Modell zur Trennung mehrerer Klangtypen und beruht ausschließlich auf schwach beschrifteten Daten für das Training. Darüber hinaus kann der vorgeschlagene Audio-Trenner in einer Zero-Shot-Situation eingesetzt werden, indem er lernt, Klangquellen zu trennen, die im Trainingsdatensatz nie aufgetreten sind. Zur Evaluierung der Trennleistung testen wir unser Modell auf MUSDB18, während wir auf dem disjunkten AudioSet trainieren. Weitere Experimente mit aus dem Training ausgeschlossenen Audioquellentypen bestätigen die Zero-Shot-Fähigkeit. In beiden Fällen erzielt das Modell eine vergleichbare Source-to-Distortion Ratio (SDR)-Leistung im Vergleich zu aktuellen überwachten Modellen.