HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrfachformat-orientiertes kontrastives Lernen von Audio-Repräsentationen

Luyu Wang Aaron van den Oord

Zusammenfassung

Neuere Fortschritte deuten darauf hin, dass die mehrmodale Ausbildung gegenüber einmodalen Methoden Vorteile bietet. Im Gegensatz hierzu zeigen wir in unserer Arbeit, dass ähnliche Verbesserungen auch durch die Ausbildung mit unterschiedlichen Formaten einer einzigen Modality erzielt werden können. Insbesondere untersuchen wir den Einsatz des kontrastiven Lernrahmens, um Audio-Repräsentationen zu lernen, indem die Übereinstimmung zwischen dem Roh-Audio und seiner spektralen Darstellung maximiert wird. Wir beobachten eine signifikante Verbesserung durch diese mehrformatige Strategie im Vergleich zu Ein-Format-Methoden. Darüber hinaus erreicht unser rein audio-basiertes Ansatz auf den nachgeschalteten Klassifikationsaufgaben AudioSet und ESC-50 neue SOTA-Ergebnisse mit einem mittleren Durchschnittspräzision von 0,376 und einer Genauigkeit von 90,5 %, jeweils.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp