vor 6 Monaten

Zusammenfassung

Neuere Fortschritte deuten darauf hin, dass die mehrmodale Ausbildung gegenüber einmodalen Methoden Vorteile bietet. Im Gegensatz hierzu zeigen wir in unserer Arbeit, dass ähnliche Verbesserungen auch durch die Ausbildung mit unterschiedlichen Formaten einer einzigen Modality erzielt werden können. Insbesondere untersuchen wir den Einsatz des kontrastiven Lernrahmens, um Audio-Repräsentationen zu lernen, indem die Übereinstimmung zwischen dem Roh-Audio und seiner spektralen Darstellung maximiert wird. Wir beobachten eine signifikante Verbesserung durch diese mehrformatige Strategie im Vergleich zu Ein-Format-Methoden. Darüber hinaus erreicht unser rein audio-basiertes Ansatz auf den nachgeschalteten Klassifikationsaufgaben AudioSet und ESC-50 neue SOTA-Ergebnisse mit einem mittleren Durchschnittspräzision von 0,376 und einer Genauigkeit von 90,5 %, jeweils.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio-Klassifikation

Audio- Und Sprachverarbeitung

Multimodale Darstellung

Audio

Multimodal

Aufgabe

Luyu Wang Aaron van den Oord

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio-Klassifikation

Audio- Und Sprachverarbeitung

Multimodale Darstellung

Audio

Multimodal

Aufgabe

Luyu Wang Aaron van den Oord

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Mehrfachformat-orientiertes kontrastives Lernen von Audio-Repräsentationen

Luyu Wang Aaron van den Oord

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfachformat-orientiertes kontrastives Lernen von Audio-Repräsentationen

Luyu Wang Aaron van den Oord

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfachformat-orientiertes kontrastives Lernen von Audio-Repräsentationen

Luyu Wang Aaron van den Oord

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters