HyperAIHyperAI

Command Palette

Search for a command to run...

AudioCLIP: Erweiterung von CLIP auf Bilder, Text und Audio

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Zusammenfassung

In der Vergangenheit profitierte das schnell sich entwickelnde Feld der Schallklassifizierung stark von der Anwendung von Methoden aus anderen Bereichen. Heute beobachten wir die Tendenz, domänenspezifische Aufgaben und Ansätze zusammenzuführen, was der Gemeinschaft neue herausragende Modelle zur Verfügung stellt.In dieser Arbeit stellen wir eine Erweiterung des CLIP-Modells vor, das neben Text und Bildern auch Audio verarbeitet. Unser vorgeschlagenes Modell integriert das ESResNeXt-Audiomodell in den CLIP-Rahmen unter Verwendung des AudioSet-Datensatzes. Diese Kombination ermöglicht es dem vorgeschlagenen Modell, bimodale und unimodale Klassifizierungen und Abfragen durchzuführen, während es die Fähigkeit von CLIP behält, auf unbekannten Datensätzen in einer zero-shot-Inferenz-Weise zu generalisieren.AudioCLIP erzielt neue Standarte in der Umgebungsgeräusch-Klassifizierung (ESC), indem es andere Ansätze bei Genauigkeiten von 90,07 % im UrbanSound8K-Datensatz und 97,15 % im ESC-50-Datensatz übertrifft. Zudem legt es neue Baseline-Werte für die zero-shot-ESC-Aufgabe in denselben Datensätzen fest (68,78 % und 69,40 % respektive).Schließlich bewerten wir auch die cross-modale Abfrageleistung des vorgeschlagenen Modells sowie den Einfluss vollständiger und teilweiser Trainings auf die Ergebnisse. Im Interesse der Reproduzierbarkeit wurde unser Code veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp