SSAMBA : Apprentissage de représentations audio auto-supervisé avec le modèle d'espace d'état Mamba

Les Transformers ont révolutionné l'apprentissage profond dans diverses tâches, y compris l'apprentissage de représentations audio, grâce à leurs capacités de modélisation puissantes. Cependant, ils souffrent souvent d'une complexité quadratique tant en termes d'utilisation de la mémoire GPU que de temps de calcul pour l'inférence, ce qui affecte leur efficacité. Récemment, les modèles d'espace d'état (SSMs) comme Mamba sont apparus comme une alternative prometteuse, offrant une approche plus efficace en évitant ces complexités. Compte tenu de ces avantages, nous explorons le potentiel des modèles basés sur les SSMs dans les tâches audio. Dans cet article, nous présentons Self-Supervised Audio Mamba (SSAMBA), le premier modèle auto-supervisé, sans attention et basé sur les SSMs pour l'apprentissage de représentations audio. SSAMBA utilise le Mamba bidirectionnel pour capturer efficacement des motifs audio complexes. Nous intégrons un cadre d'auto-entraînement supervisé qui optimise à la fois les objectifs discriminants et génératifs, permettant au modèle d'apprendre des représentations audio robustes à partir de jeux de données massifs non étiquetés. Nous avons évalué SSAMBA sur diverses tâches telles que la classification audio, la détection de mots-clés et l'identification des locuteurs. Nos résultats montrent que SSAMBA surpassent le Self-Supervised Audio Spectrogram Transformer (SSAST) dans la plupart des tâches. Notamment, SSAMBA est environ 92,7 % plus rapide en termes de vitesse d'inférence par lot et 95,4 % plus efficace en termes d'utilisation de la mémoire que SSAST pour une taille de modèle miniature avec une taille de jeton d'entrée de 22k. Ces gains en efficacité, combinés à des performances supérieures, soulignent l'efficacité de l'innovation architecturale de SSAMBA, le rendant un choix convaincant pour une large gamme d'applications de traitement audio.