Apprentissage contrastif de représentations audio polyvalentes

Nous présentons COLA, une approche d'apprentissage auto-supervisé pour l' apprentissage d'une représentation polyvalente de l'audio. Notre méthode repose sur l'apprentissage par contraste : elle apprend une représentation qui attribue une forte similarité aux segments audio extraits du même enregistrement tout en attribuant une faible similarité aux segments provenant d'enregistrements différents. Nous nous appuyons sur les récentes avancées en apprentissage par contraste dans le domaine de la vision par ordinateur et de l'apprentissage par renforcement pour concevoir un modèle auto-supervisé léger et facile à mettre en œuvre pour l'audio. Nous pré-entraînons des plongements (embeddings) sur la base de données Audioset à grande échelle et transférons ces représentations à 9 tâches de classification variées, incluant la parole, la musique, les sons d'animaux et les scènes acoustiques. Nous montrons que malgré sa simplicité, notre méthode dépasse significativement les systèmes auto-supervisés précédents. De plus, nous menons des études d'ablation pour identifier les choix de conception clés et mettons à disposition une bibliothèque pour pré-entraîner et affiner les modèles COLA.