SSLAM: Verbesserung selbstüberwachter Modelle durch Audiomischungen für polyphone Klanglandschaften
Selbstüberwachte vortrainierte Audio-Netzwerke haben in realen Systemen, insbesondere in multimodalen großen Sprachmodellen, weite Verbreitung gefunden. Diese Netzwerke werden häufig in einem fixierten Zustand eingesetzt, unter der Annahme, dass die selbstüberwachte Vortrainierung sie ausreichend für die Bewältigung realer Audio-Daten ausgestattet hat. Dennoch bleibt eine entscheidende Frage offen: Wie gut performieren diese Modelle tatsächlich unter realen Bedingungen, bei denen Audio typischerweise polyphon und komplex ist, also mehrere sich überlagernde Klangquellen beinhaltet? Aktuelle Ansätze des selbstüberwachten Lernens für Audio (SSL) werden häufig an Datensätzen evaluiert, die überwiegend monophone Audio-Daten enthalten, wie beispielsweise Umgebungsgeräusche oder Sprache. Folglich bleibt die Fähigkeit von SSL-Modellen, sich auf polyphones Audio zu verallgemeinern – ein häufiges Merkmal natürlicher Szenarien – bisher unzureichend erforscht. Dieser Einschränkung liegt eine Besorgnis um die praktische Robustheit von SSL-Modellen in realistischeren Audio-Umgebungen zugrunde. Um diese Lücke zu schließen, stellen wir SSLAM (Self-Supervised Learning from Audio Mixtures) vor, eine neuartige Forschungsrichtung im Bereich des audio-SSL, die darauf abzielt, die Fähigkeit der Modelle zu verbessern, aus polyphonen Daten zu lernen, während gleichzeitig eine hohe Leistung auf monophonen Daten erhalten bleibt. Wir evaluieren SSLAM umfassend an Standard-SSL-Benchmark-Datensätzen, die überwiegend monophon sind, und führen eine detaillierte vergleichende Analyse gegenüber aktuellen State-of-the-Art (SOTA)-Methoden anhand einer Reihe hochwertiger, öffentlich verfügbaren polyphoner Datensätze durch. SSLAM verbessert nicht nur die Leistung der Modelle auf polyphonem Audio, sondern behält auch die Leistung auf herkömmlichen SSL-Benchmark-Datensätzen bei oder übertrifft sie. Insbesondere erreicht SSLAM eine Verbesserung von bis zu 3,9 % auf AudioSet-2M (AS-2M), wodurch ein mittlerer Genauigkeitswert (mAP) von 50,2 erzielt wird. Auf polyphonen Datensätzen erreicht SSLAM neue SOTA-Ergebnisse sowohl im linearen Evaluierungs- als auch im Feintuning-Regime mit Leistungssteigerungen von bis zu 9,1 % (mAP). Diese Ergebnisse belegen die Wirksamkeit von SSLAM sowohl in polyphonen als auch in monophonen Klanglandschaften und stellen eine signifikante Verbesserung der Leistung von audio-SSL-Modellen dar.