SSLAM : Amélioration des modèles auto-supervisés par des mélanges audio pour les paysages sonores polyphoniques
Les réseaux audio pré-entraînés par auto-supervision ont connu une adoption massive dans les systèmes du monde réel, en particulier dans les grands modèles linguistiques multimodaux. Ces réseaux sont fréquemment utilisés dans un état figé, sous l'hypothèse que l'entraînement auto-supervisé préalable les a suffisamment équipés pour traiter les données audio du monde réel. Toutefois, une question critique demeure : comment ces modèles se comportent-ils réellement dans des conditions concrètes, où l’audio est généralement polyphonique et complexe, impliquant plusieurs sources sonores superposées ? Les méthodes actuelles d’apprentissage auto-supervisé audio (SSL) sont souvent évaluées sur des jeux de données principalement composés d’audio monophonique, tels que des sons environnementaux ou de la parole. En conséquence, la capacité des modèles SSL à généraliser à l’audio polyphonique — une caractéristique fréquente dans les scénarios naturels — reste largement sous-étudiée. Cette limitation soulève des préoccupations quant à la robustesse pratique des modèles SSL dans des environnements audio plus réalistes. Pour combler cet écart, nous introduisons Self-Supervised Learning from Audio Mixtures (SSLAM), une nouvelle direction dans la recherche en SSL audio, conçue pour améliorer la capacité des modèles à apprendre à partir de données polyphoniques tout en préservant de fortes performances sur des données monophoniques. Nous évaluons de manière exhaustive SSLAM sur des jeux de données standards de benchmark SSL audio, majoritairement monophoniques, et menons une analyse comparative approfondie contre les méthodes de pointe (SOTA) à l’aide d’une variété de jeux de données polyphoniques de haute qualité, accessibles au public. SSLAM améliore non seulement les performances des modèles sur l’audio polyphonique, mais conserve également ou dépasse les performances sur les benchmarks standards de SSL audio. Notamment, il atteint une amélioration allant jusqu’à 3,9 % sur AudioSet-2M (AS-2M), avec un précision moyenne en moyenne (mAP) de 50,2. Pour les jeux de données polyphoniques, SSLAM établit de nouveaux états de l’art, tant dans le cadre d’évaluation linéaire que d’ajustement fin (fine-tuning), avec des gains allant jusqu’à 9,1 % (mAP). Ces résultats démontrent l’efficacité de SSLAM dans des environnements sonores à la fois polyphoniques et monophoniques, et améliorent significativement les performances des modèles SSL audio.