Apprentissage automatique auto-supervisé basé sur Conformer pour les tâches audio non linguistiques

L'apprentissage de représentations à partir de données non étiquetées a suscité un intérêt majeur dans le domaine de la recherche en intelligence artificielle. Bien que l'apprentissage auto-supervisé des représentations vocales soit largement adopté dans la communauté de recherche sur le langage, très peu d'œuvres ont analysé de manière exhaustive l'apprentissage des représentations audio pour des tâches audio non linguistiques. Dans cet article, nous proposons une méthode d'apprentissage auto-supervisé des représentations audio et l'appliquons à diverses tâches audio non vocales en aval. Nous combinons le cadre bien établi wav2vec 2.0, qui a démontré son efficacité dans l'apprentissage auto-supervisé pour les tâches vocales, avec des architectures conformer à faible coût en paramètres. Notre pré-entraînement auto-supervisé permet de réduire de deux tiers la dépendance aux données étiquetées. Sur le benchmark AudioSet, nous atteignons un score de précision moyenne en moyenne (mAP) de 0,415, établissant ainsi un nouveau record sur cet ensemble de données grâce à un apprentissage auto-supervisé uniquement audio. Nos modèles conformer ajustés en fin-tuning surpassent ou égalent les performances des systèmes précédents pré-entraînés de manière supervisée sur plusieurs tâches en aval. Nous discutons également en détail des considérations importantes concernant la conception du pré-entraînement et du fin-tuning.