EAT : Pré-formation auto-supervisée avec un Transformers audio efficace

L'apprentissage auto-supervisé (SSL) pré-entraîné pour l'audio, qui vise à apprendre de bonnes représentations à partir d'audio non étiqueté, a connu des progrès remarquables. Cependant, les exigences computationnelles importantes lors du pré-entraînement constituent une barrière significative à l'application potentielle et à l'optimisation des modèles SSL audio. Dans cet article, inspirés par le succès de data2vec 2.0 dans la modalité image et d'Audio-MAE dans la modalité audio, nous présentons Efficient Audio Transformer (EAT) afin d'améliorer davantage l'efficacité et l'efficience dans le SSL audio. L'EAT proposé adopte le paradigme d'entraînement auto-supervisé bootstrap au domaine audio. Un nouvel objectif Utterance-Frame (UFO) est conçu pour renforcer la capacité de modélisation des événements acoustiques. De plus, nous montrons que la stratégie de masquage est cruciale dans le pré-entraînement SSL audio, et que des représentations audio supérieures peuvent être obtenues avec des masques de bloc inverses importants. Les résultats expérimentaux démontrent que l'EAT atteint des performances de pointe (SOTA) sur une variété de tâches liées à l'audio, notamment AudioSet (AS-2M, AS-20K), ESC-50 et SPC-2, tout en offrant une accélération du pré-entraînement allant jusqu'à ~15 fois par rapport aux modèles SSL audio existants.