HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

SSLAM: Verbesserung selbstüberwachter Modelle durch Audiomischungen für polyphone Klanglandschaften

{Philip J B Jackson Muhammad Awais Armin Mustafa Sara Atito Tony Alex}

Abstract

Selbstüberwachte vortrainierte Audio-Netzwerke haben in realen Systemen, insbesondere in multimodalen großen Sprachmodellen, weite Verbreitung gefunden. Diese Netzwerke werden häufig in einem fixierten Zustand eingesetzt, unter der Annahme, dass die selbstüberwachte Vortrainierung sie ausreichend für die Bewältigung realer Audio-Daten ausgestattet hat. Dennoch bleibt eine entscheidende Frage offen: Wie gut performieren diese Modelle tatsächlich unter realen Bedingungen, bei denen Audio typischerweise polyphon und komplex ist, also mehrere sich überlagernde Klangquellen beinhaltet? Aktuelle Ansätze des selbstüberwachten Lernens für Audio (SSL) werden häufig an Datensätzen evaluiert, die überwiegend monophone Audio-Daten enthalten, wie beispielsweise Umgebungsgeräusche oder Sprache. Folglich bleibt die Fähigkeit von SSL-Modellen, sich auf polyphones Audio zu verallgemeinern – ein häufiges Merkmal natürlicher Szenarien – bisher unzureichend erforscht. Dieser Einschränkung liegt eine Besorgnis um die praktische Robustheit von SSL-Modellen in realistischeren Audio-Umgebungen zugrunde. Um diese Lücke zu schließen, stellen wir SSLAM (Self-Supervised Learning from Audio Mixtures) vor, eine neuartige Forschungsrichtung im Bereich des audio-SSL, die darauf abzielt, die Fähigkeit der Modelle zu verbessern, aus polyphonen Daten zu lernen, während gleichzeitig eine hohe Leistung auf monophonen Daten erhalten bleibt. Wir evaluieren SSLAM umfassend an Standard-SSL-Benchmark-Datensätzen, die überwiegend monophon sind, und führen eine detaillierte vergleichende Analyse gegenüber aktuellen State-of-the-Art (SOTA)-Methoden anhand einer Reihe hochwertiger, öffentlich verfügbaren polyphoner Datensätze durch. SSLAM verbessert nicht nur die Leistung der Modelle auf polyphonem Audio, sondern behält auch die Leistung auf herkömmlichen SSL-Benchmark-Datensätzen bei oder übertrifft sie. Insbesondere erreicht SSLAM eine Verbesserung von bis zu 3,9 % auf AudioSet-2M (AS-2M), wodurch ein mittlerer Genauigkeitswert (mAP) von 50,2 erzielt wird. Auf polyphonen Datensätzen erreicht SSLAM neue SOTA-Ergebnisse sowohl im linearen Evaluierungs- als auch im Feintuning-Regime mit Leistungssteigerungen von bis zu 9,1 % (mAP). Diese Ergebnisse belegen die Wirksamkeit von SSLAM sowohl in polyphonen als auch in monophonen Klanglandschaften und stellen eine signifikante Verbesserung der Leistung von audio-SSL-Modellen dar.

Benchmarks

BenchmarkMethodikMetriken
audio-classification-on-audiosetSSLAM (Audio-Only, Single)
Test mAP: 0.502
audio-classification-on-balanced-audio-setSSLAM
Mean AP: 40.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SSLAM: Verbesserung selbstüberwachter Modelle durch Audiomischungen für polyphone Klanglandschaften | Forschungsarbeiten | HyperAI