ATST : Apprentissage de représentations audio avec un Transformers maître-étudiant

L'apprentissage auto-supervisé (SSL) acquiert des connaissances à partir d'une grande quantité de données non étiquetées, puis transfère ces connaissances à un problème spécifique avec un nombre limité de données étiquetées. Le SSL a obtenu des résultats prometteurs dans divers domaines. Cette étude aborde le problème du SSL audio général au niveau des segments et propose un nouveau modèle SSL basé sur les transformateurs, appelé ATST. Un encodeur de transformateur est développé sur la base d'un schéma de référence récemment émergent entre enseignant et élève, ce qui améliore considérablement la capacité de modélisation lors de l'entraînement préalable. De plus, une nouvelle stratégie pour la création de paires positives est conçue afin d'exploiter pleinement les capacités du transformateur. Des expériences approfondies ont été menées, et le modèle proposé atteint les nouveaux résultats de pointe sur presque toutes les tâches en aval.