Mehrfachformat-orientiertes kontrastives Lernen von Audio-Repräsentationen

Neuere Fortschritte deuten darauf hin, dass die mehrmodale Ausbildung gegenüber einmodalen Methoden Vorteile bietet. Im Gegensatz hierzu zeigen wir in unserer Arbeit, dass ähnliche Verbesserungen auch durch die Ausbildung mit unterschiedlichen Formaten einer einzigen Modality erzielt werden können. Insbesondere untersuchen wir den Einsatz des kontrastiven Lernrahmens, um Audio-Repräsentationen zu lernen, indem die Übereinstimmung zwischen dem Roh-Audio und seiner spektralen Darstellung maximiert wird. Wir beobachten eine signifikante Verbesserung durch diese mehrformatige Strategie im Vergleich zu Ein-Format-Methoden. Darüber hinaus erreicht unser rein audio-basiertes Ansatz auf den nachgeschalteten Klassifikationsaufgaben AudioSet und ESC-50 neue SOTA-Ergebnisse mit einem mittleren Durchschnittspräzision von 0,376 und einer Genauigkeit von 90,5 %, jeweils.