Kontrastives Lernen allgemeinzweckiger Audio-Darstellungen

Wir stellen COLA vor, einen selbstüberwachten Vortrainingsansatz zur Lernung einer allgemeinen Audiodarstellung. Unser Ansatz basiert auf kontrastivem Lernen: er lernt eine Darstellung, die hohe Ähnlichkeit für Audosegmente zuweist, die aus der gleichen Aufnahme extrahiert wurden, während er geringere Ähnlichkeiten für Segmente aus verschiedenen Aufnahmen zuweist. Wir bauen auf jüngsten Fortschritten im kontrastiven Lernen für Computer Vision und Reinforcement Learning auf, um ein leichtgewichtiges, einfach zu implementierendes selbstüberwachtes Modell des Audios zu entwickeln. Wir trainieren die Embeddings auf der groß angelegten Audioset-Datenbank vor und übertragen diese Darstellungen auf 9 verschiedene Klassifizierungsaufgaben, darunter Sprache, Musik, Tierlaute und akustische Szenen. Wir zeigen, dass unser Verfahren trotz seiner Einfachheit signifikant bessere Ergebnisse als frühere selbstüberwachte Systeme erzielt. Des Weiteren führen wir Reduktionsstudien durch, um entscheidende Designentscheidungen zu identifizieren, und veröffentlichen eine Bibliothek zur Vor- und Feinabstimmung von COLA-Modellen.