il y a 6 mois

Résumé

Les avancées récentes suggèrent un avantage du apprentissage multi-modale par rapport aux méthodes mono-modales. En contraste avec cette vision, notre travail montre qu’un gain similaire peut être obtenu en entraînant avec différentes formulations d’une même modalité. Plus précisément, nous étudions l’usage du cadre d’apprentissage contrastif pour apprendre des représentations audio en maximisant l’accord entre le signal audio brut et sa représentation spectrale. Nous observons un gain significatif grâce à cette stratégie multi-formats par rapport aux approches mono-formats. De plus, sur les tâches de classification downstream AudioSet et ESC-50, notre approche exclusivement audio atteint de nouveaux résultats état-de-l’art, avec une précision moyenne par classe de 0,376 et une exactitude de 90,5 %, respectivement.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Classification Audio

Traitement Audio Et Vocal

Représentation Multimodale

Audio

Multimodal

Tâche

Luyu Wang Aaron van den Oord

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Classification Audio

Traitement Audio Et Vocal

Représentation Multimodale

Audio

Multimodal

Tâche

Luyu Wang Aaron van den Oord

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage contrastif multi-format des représentations audio

Luyu Wang Aaron van den Oord

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif multi-format des représentations audio

Luyu Wang Aaron van den Oord

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif multi-format des représentations audio

Luyu Wang Aaron van den Oord

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters