HyperAIHyperAI
vor 2 Monaten

AudioCLIP: Erweiterung von CLIP auf Bilder, Text und Audio

Guzhov, Andrey ; Raue, Federico ; Hees, Jörn ; Dengel, Andreas
AudioCLIP: Erweiterung von CLIP auf Bilder, Text und Audio
Abstract

In der Vergangenheit profitierte das schnell sich entwickelnde Feld der Schallklassifizierung stark von der Anwendung von Methoden aus anderen Bereichen. Heute beobachten wir die Tendenz, domänenspezifische Aufgaben und Ansätze zusammenzuführen, was der Gemeinschaft neue herausragende Modelle zur Verfügung stellt.In dieser Arbeit stellen wir eine Erweiterung des CLIP-Modells vor, das neben Text und Bildern auch Audio verarbeitet. Unser vorgeschlagenes Modell integriert das ESResNeXt-Audiomodell in den CLIP-Rahmen unter Verwendung des AudioSet-Datensatzes. Diese Kombination ermöglicht es dem vorgeschlagenen Modell, bimodale und unimodale Klassifizierungen und Abfragen durchzuführen, während es die Fähigkeit von CLIP behält, auf unbekannten Datensätzen in einer zero-shot-Inferenz-Weise zu generalisieren.AudioCLIP erzielt neue Standarte in der Umgebungsgeräusch-Klassifizierung (ESC), indem es andere Ansätze bei Genauigkeiten von 90,07 % im UrbanSound8K-Datensatz und 97,15 % im ESC-50-Datensatz übertrifft. Zudem legt es neue Baseline-Werte für die zero-shot-ESC-Aufgabe in denselben Datensätzen fest (68,78 % und 69,40 % respektive).Schließlich bewerten wir auch die cross-modale Abfrageleistung des vorgeschlagenen Modells sowie den Einfluss vollständiger und teilweiser Trainings auf die Ergebnisse. Im Interesse der Reproduzierbarkeit wurde unser Code veröffentlicht.

AudioCLIP: Erweiterung von CLIP auf Bilder, Text und Audio | Neueste Forschungsarbeiten | HyperAI