il y a 8 mois

Résumé

Dans le passé, le domaine en rapide évolution de la classification sonore a grandement bénéficié de l'application de méthodes issues d'autres domaines. Aujourd'hui, nous observons une tendance à fusionner des tâches et des approches spécifiques à chaque domaine, ce qui offre à la communauté de nouveaux modèles exceptionnels.Dans cette étude, nous présentons une extension du modèle CLIP capable de traiter l'audio en plus du texte et des images. Notre modèle proposé intègre le modèle sonore ESResNeXt dans le cadre de CLIP en utilisant le jeu de données AudioSet. Cette combinaison permet au modèle proposé de réaliser des classifications et des requêtes bimodales et unimodales tout en conservant la capacité de CLIP à généraliser sur des jeux de données inédits en mode inférence zéro-shot.AudioCLIP obtient de nouveaux résultats d'état de l'art dans la tâche de classification des sons environnementaux (ESC), surpassant les autres approches avec des précisions atteignant 90,07 % sur le jeu de données UrbanSound8K et 97,15 % sur le jeu de données ESC-50. De plus, il établit de nouvelles références pour la tâche ESC zéro-shot sur les mêmes jeux de données (68,78 % et 69,40 % respectivement).Enfin, nous évaluons également les performances en requêtes intermodales du modèle proposé ainsi que l'influence d'un entraînement complet et partiel sur les résultats. Pour assurer la reproductibilité, notre code est publié.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Classification Audio

Multimodal

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Classification Audio

Multimodal

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio | Articles | HyperAI

Command Palette

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AudioCLIP : Extension de CLIP à l'image, au texte et à l'audio

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters