HyperAIHyperAI
il y a 15 jours

BEATs : Pré-entraînement audio avec des tokeniseurs acoustiques

Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Furu Wei
BEATs : Pré-entraînement audio avec des tokeniseurs acoustiques
Résumé

La croissance massive de l’apprentissage auto-supervisé (SSL) a été observée ces dernières années dans les domaines du langage, de la vision, de la parole et de l’audio. Bien que la prédiction de labels discrets soit largement adoptée pour d’autres modalités, les modèles SSL audio les plus performants continuent d’utiliser une perte de reconstruction pour la phase de pré-entraînement. Contrairement à la perte de reconstruction, la prédiction de labels discrets riches en sémantique incite le modèle SSL à extraire les significations audio de haut niveau tout en ignorant les détails redondants, conformément à la perception humaine. Toutefois, la mise en œuvre d’un tokeniseur acoustique riche en sémantique pour un pré-entraînement audio généralisé n’est pas directe, en raison de la nature continue du signal audio et du manque de séquences de phonèmes comme dans le cas de la parole. Pour relever ce défi, nous proposons BEATs, un cadre itératif de pré-entraînement audio visant à apprendre des représentations bidirectionnelles à partir de Transformers audio (Bidirectional Encoder representations from Audio Transformers), dans lequel un tokeniseur acoustique et un modèle SSL audio sont optimisés de manière itérative. Dans la première itération, nous utilisons une projection aléatoire comme tokeniseur acoustique afin d’entraîner un modèle SSL audio selon une stratégie de masquage et de prédiction de labels. Ensuite, nous entraînons un tokeniseur acoustique pour l’itération suivante en extrayant les connaissances sémantiques à partir d’un modèle SSL audio pré-entraîné ou finement ajusté. Cette itération est répétée dans l’espoir d’un développement mutuel entre le tokeniseur acoustique et le modèle SSL audio. Les résultats expérimentaux démontrent que nos tokeniseurs acoustiques génèrent des labels discrets riches en sémantique audio, et que nos modèles SSL audio atteignent des performances de pointe sur diverses benchmarks de classification audio, dépassant même significativement des modèles antérieurs qui utilisaient davantage de données d’entraînement et de paramètres. Plus précisément, nous établissons un nouveau record mondial avec une mAP de 50,6 % sur AudioSet-2M pour les modèles audio uniquement, sans utiliser de données externes, ainsi qu’une précision de 98,1 % sur ESC-50. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://aka.ms/beats.

BEATs : Pré-entraînement audio avec des tokeniseurs acoustiques | Articles de recherche récents | HyperAI