MT-SLVR : Apprentissage auto-supervisé multi-tâches pour des représentations invariantes (de transformation)

L'apprentissage auto-supervisé contrastif a attiré l'attention pour sa capacité à créer des représentations de haute qualité à partir de grands ensembles de données non étiquetées. Une raison clé pour laquelle ces caractéristiques puissantes permettent un apprentissage efficace des tâches en aval est qu'elles offrent une invariance aux augmentations, qui constitue souvent un biais inductif utile. Cependant, le nombre et le type d'invariances préférés ne sont pas connus a priori et varient selon les différentes tâches en aval. Nous proposons donc un cadre d'apprentissage auto-supervisé multi-tâche (MT-SLVR) qui apprend à la fois des caractéristiques variantes et invariantes de manière efficiente en termes de paramètres. Notre représentation multi-tâche fournit une caractéristique forte et flexible qui bénéficie à diverses tâches en aval. Nous évaluons notre approche sur des tâches de classification avec peu d'exemples provenant de divers domaines audio et démontrons une amélioration des performances de classification dans tous les cas.