Apprentissage contrastif multi-format des représentations audio

Les avancées récentes suggèrent un avantage du apprentissage multi-modale par rapport aux méthodes mono-modales. En contraste avec cette vision, notre travail montre qu’un gain similaire peut être obtenu en entraînant avec différentes formulations d’une même modalité. Plus précisément, nous étudions l’usage du cadre d’apprentissage contrastif pour apprendre des représentations audio en maximisant l’accord entre le signal audio brut et sa représentation spectrale. Nous observons un gain significatif grâce à cette stratégie multi-formats par rapport aux approches mono-formats. De plus, sur les tâches de classification downstream AudioSet et ESC-50, notre approche exclusivement audio atteint de nouveaux résultats état-de-l’art, avec une précision moyenne par classe de 0,376 et une exactitude de 90,5 %, respectivement.