HyperAIHyperAI
il y a 2 mois

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio

Guzhov, Andrey ; Raue, Federico ; Hees, Jörn ; Dengel, Andreas
AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio
Résumé

Dans le passé, le domaine en rapide évolution de la classification sonore a grandement bénéficié de l'application de méthodes issues d'autres domaines. Aujourd'hui, nous observons une tendance à fusionner des tâches et des approches spécifiques à chaque domaine, ce qui offre à la communauté de nouveaux modèles exceptionnels.Dans cette étude, nous présentons une extension du modèle CLIP capable de traiter l'audio en plus du texte et des images. Notre modèle proposé intègre le modèle sonore ESResNeXt dans le cadre de CLIP en utilisant le jeu de données AudioSet. Cette combinaison permet au modèle proposé de réaliser des classifications et des requêtes bimodales et unimodales tout en conservant la capacité de CLIP à généraliser sur des jeux de données inédits en mode inférence zéro-shot.AudioCLIP obtient de nouveaux résultats d'état de l'art dans la tâche de classification des sons environnementaux (ESC), surpassant les autres approches avec des précisions atteignant 90,07 % sur le jeu de données UrbanSound8K et 97,15 % sur le jeu de données ESC-50. De plus, il établit de nouvelles références pour la tâche ESC zéro-shot sur les mêmes jeux de données (68,78 % et 69,40 % respectivement).Enfin, nous évaluons également les performances en requêtes intermodales du modèle proposé ainsi que l'influence d'un entraînement complet et partiel sur les résultats. Pour assurer la reproductibilité, notre code est publié.

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio | Articles de recherche récents | HyperAI