HyperAIHyperAI

Command Palette

Search for a command to run...

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

Dans le passé, le domaine en rapide évolution de la classification sonore a grandement bénéficié de l'application de méthodes issues d'autres domaines. Aujourd'hui, nous observons une tendance à fusionner des tâches et des approches spécifiques à chaque domaine, ce qui offre à la communauté de nouveaux modèles exceptionnels.Dans cette étude, nous présentons une extension du modèle CLIP capable de traiter l'audio en plus du texte et des images. Notre modèle proposé intègre le modèle sonore ESResNeXt dans le cadre de CLIP en utilisant le jeu de données AudioSet. Cette combinaison permet au modèle proposé de réaliser des classifications et des requêtes bimodales et unimodales tout en conservant la capacité de CLIP à généraliser sur des jeux de données inédits en mode inférence zéro-shot.AudioCLIP obtient de nouveaux résultats d'état de l'art dans la tâche de classification des sons environnementaux (ESC), surpassant les autres approches avec des précisions atteignant 90,07 % sur le jeu de données UrbanSound8K et 97,15 % sur le jeu de données ESC-50. De plus, il établit de nouvelles références pour la tâche ESC zéro-shot sur les mêmes jeux de données (68,78 % et 69,40 % respectivement).Enfin, nous évaluons également les performances en requêtes intermodales du modèle proposé ainsi que l'influence d'un entraînement complet et partiel sur les résultats. Pour assurer la reproductibilité, notre code est publié.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio | Articles | HyperAI