HyperAIHyperAI

Command Palette

Search for a command to run...

M2D-CLAP : Modélisation masquée duo rencontre CLAP pour l'apprentissage d'une représentation audio-langage générale

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Masahiro Yasuda Shunsuke Tsubaki Keisuke Imoto

Résumé

Le pré-entraînement contrastif langage-audio (CLAP) permet une inférence zéro-shot (ZS) sur les données audio et montre des performances prometteuses dans plusieurs tâches de classification. Toutefois, les représentations audio conventionnelles restent essentielles pour de nombreuses tâches où la ZS n’est pas applicable (par exemple, les problèmes de régression). Dans ce travail, nous explorons une nouvelle représentation, une représentation audio-langage universelle, qui se distingue à la fois en ZS et en apprentissage par transfert. Pour cela, nous proposons une nouvelle méthode, M2D-CLAP, qui combine l’apprentissage auto-supervisé Masked Modeling Duo (M2D) et CLAP. M2D apprend une représentation efficace pour modéliser les signaux audio, tandis que CLAP aligne cette représentation avec les embeddings textuels. En résulte, M2D-CLAP apprend une représentation polyvalente permettant à la fois l’inférence zéro-shot et l’apprentissage par transfert. Les expériences montrent que M2D-CLAP obtient de bonnes performances sur l’évaluation linéaire, le fine-tuning et la classification zéro-shot, atteignant un état de l’art sur GTZAN avec un score de 75,17 %, démontrant ainsi sa capacité à constituer une représentation audio-langage universelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp