HyperAIHyperAI

Command Palette

Search for a command to run...

Autoencodeurs masqués qui écoutent

Po-Yao Huang Hu Xu Juncheng Li Alexei Baevski Michael Auli Wojciech Galuba Florian Metze Christoph Feichtenhofer

Résumé

Cet article étudie une extension simple des Autoencodeurs Masqués basés sur les images (MAE) pour l’apprentissage représentationnel auto-supervisé à partir de spectrogrammes audio. Inspiré de l’architecture encodeur-décodeur Transformer utilisée dans MAE, Audio-MAE encode d’abord des patches de spectrogrammes audio avec un taux de masquage élevé, en ne transmettant que les tokens non masqués à travers les couches de l’encodeur. Le décodeur réordonne ensuite le contexte encodé, complété par des tokens de masque, afin de reconstruire le spectrogramme d’entrée. Nous constatons qu’il est avantageux d’intégrer une attention locale par fenêtre dans le décodeur, compte tenu de la forte corrélation spatiale temporelle et fréquentielle présente dans les spectrogrammes audio. Ensuite, nous affinons l’encodeur avec un taux de masquage plus faible sur des jeux de données cibles. Expérimentalement, Audio-MAE atteint de nouveaux records d’état de l’art sur six tâches de classification audio et vocales, surpassant d’autres modèles récents qui s’appuient sur un pré-entraînement supervisé externe. Le code et les modèles seront disponibles à l’adresse suivante : https://github.com/facebookresearch/AudioMAE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp