HyperAIHyperAI
il y a 15 jours

Apprentissage contrastif multi-format des représentations audio

Luyu Wang, Aaron van den Oord
Apprentissage contrastif multi-format des représentations audio
Résumé

Les avancées récentes suggèrent un avantage du apprentissage multi-modale par rapport aux méthodes mono-modales. En contraste avec cette vision, notre travail montre qu’un gain similaire peut être obtenu en entraînant avec différentes formulations d’une même modalité. Plus précisément, nous étudions l’usage du cadre d’apprentissage contrastif pour apprendre des représentations audio en maximisant l’accord entre le signal audio brut et sa représentation spectrale. Nous observons un gain significatif grâce à cette stratégie multi-formats par rapport aux approches mono-formats. De plus, sur les tâches de classification downstream AudioSet et ESC-50, notre approche exclusivement audio atteint de nouveaux résultats état-de-l’art, avec une précision moyenne par classe de 0,376 et une exactitude de 90,5 %, respectivement.

Apprentissage contrastif multi-format des représentations audio | Articles de recherche récents | HyperAI