HyperAIHyperAI
il y a 15 jours

M2D-CLAP : Modélisation masquée duo rencontre CLAP pour l'apprentissage d'une représentation audio-langage générale

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto
M2D-CLAP : Modélisation masquée duo rencontre CLAP pour l'apprentissage d'une représentation audio-langage générale
Résumé

Le pré-entraînement contrastif langage-audio (CLAP) permet une inférence zéro-shot (ZS) sur les données audio et montre des performances prometteuses dans plusieurs tâches de classification. Toutefois, les représentations audio conventionnelles restent essentielles pour de nombreuses tâches où la ZS n’est pas applicable (par exemple, les problèmes de régression). Dans ce travail, nous explorons une nouvelle représentation, une représentation audio-langage universelle, qui se distingue à la fois en ZS et en apprentissage par transfert. Pour cela, nous proposons une nouvelle méthode, M2D-CLAP, qui combine l’apprentissage auto-supervisé Masked Modeling Duo (M2D) et CLAP. M2D apprend une représentation efficace pour modéliser les signaux audio, tandis que CLAP aligne cette représentation avec les embeddings textuels. En résulte, M2D-CLAP apprend une représentation polyvalente permettant à la fois l’inférence zéro-shot et l’apprentissage par transfert. Les expériences montrent que M2D-CLAP obtient de bonnes performances sur l’évaluation linéaire, le fine-tuning et la classification zéro-shot, atteignant un état de l’art sur GTZAN avec un score de 75,17 %, démontrant ainsi sa capacité à constituer une représentation audio-langage universelle.

M2D-CLAP : Modélisation masquée duo rencontre CLAP pour l'apprentissage d'une représentation audio-langage générale | Articles de recherche récents | HyperAI