HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage contrastif multi-format des représentations audio

Luyu Wang Aaron van den Oord

Résumé

Les avancées récentes suggèrent un avantage du apprentissage multi-modale par rapport aux méthodes mono-modales. En contraste avec cette vision, notre travail montre qu’un gain similaire peut être obtenu en entraînant avec différentes formulations d’une même modalité. Plus précisément, nous étudions l’usage du cadre d’apprentissage contrastif pour apprendre des représentations audio en maximisant l’accord entre le signal audio brut et sa représentation spectrale. Nous observons un gain significatif grâce à cette stratégie multi-formats par rapport aux approches mono-formats. De plus, sur les tâches de classification downstream AudioSet et ESC-50, notre approche exclusivement audio atteint de nouveaux résultats état-de-l’art, avec une précision moyenne par classe de 0,376 et une exactitude de 90,5 %, respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage contrastif multi-format des représentations audio | Articles | HyperAI