HyperAIHyperAI
il y a 15 jours

Autoencodeurs masqués qui écoutent

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
Autoencodeurs masqués qui écoutent
Résumé

Cet article étudie une extension simple des Autoencodeurs Masqués basés sur les images (MAE) pour l’apprentissage représentationnel auto-supervisé à partir de spectrogrammes audio. Inspiré de l’architecture encodeur-décodeur Transformer utilisée dans MAE, Audio-MAE encode d’abord des patches de spectrogrammes audio avec un taux de masquage élevé, en ne transmettant que les tokens non masqués à travers les couches de l’encodeur. Le décodeur réordonne ensuite le contexte encodé, complété par des tokens de masque, afin de reconstruire le spectrogramme d’entrée. Nous constatons qu’il est avantageux d’intégrer une attention locale par fenêtre dans le décodeur, compte tenu de la forte corrélation spatiale temporelle et fréquentielle présente dans les spectrogrammes audio. Ensuite, nous affinons l’encodeur avec un taux de masquage plus faible sur des jeux de données cibles. Expérimentalement, Audio-MAE atteint de nouveaux records d’état de l’art sur six tâches de classification audio et vocales, surpassant d’autres modèles récents qui s’appuient sur un pré-entraînement supervisé externe. Le code et les modèles seront disponibles à l’adresse suivante : https://github.com/facebookresearch/AudioMAE.