Modélisation Masquée Duo : Vers un Cadre de Pré-formation Universel pour l'Audio

L'apprentissage auto-supervisé (SSL) utilisant la prédiction masquée a fait de grands progrès dans la représentation audio à usage général. Cette étude propose le Modèle Masqué Duo (M2D), une amélioration de la prédiction masquée SSL, qui apprend en prédissant les représentations des signaux d'entrée masqués servant de signaux d'entraînement. Contrairement aux méthodes conventionnelles, M2D obtient un signal d'entraînement en ne codant que la partie masquée, encourageant ainsi les deux réseaux de M2D à modéliser l'entrée. Bien que M2D améliore les représentations audio à usage général, une représentation spécialisée est essentielle pour les applications pratiques, notamment dans les domaines industriels et médicaux. Les données souvent confidentielles et propriétaires dans ces domaines sont généralement limitées en taille et ont une distribution différente de celle des jeux de données pré-entraînés. Par conséquent, nous proposons M2D pour X (M2D-X), qui étend M2D afin de permettre le pré-entraînement de représentations spécialisées pour une application X. M2D-X apprend à partir de M2D et d'une tâche supplémentaire, en intégrant du bruit ambiant comme entrée. Nous rendons la tâche supplémentaire configurable pour servir diverses applications, tandis que le bruit ambiant aide à l'apprentissage sur des petits ensembles de données et forme une tâche de débruitage qui renforce la robustesse des représentations. Avec ces choix de conception, M2D-X devrait être capable d'apprendre une représentation spécialisée pour répondre aux besoins variés des applications. Nos expériences ont confirmé que les représentations audio à usage général, spécialisées pour le domaine très concurrentiel d'AudioSet et du discours, ainsi qu'une tâche médicale avec peu de données, atteignent des performances de premier niveau, démontrant le potentiel d'utilisation de nos modèles comme cadre universel de pré-entraînement audio. Notre code est disponible en ligne pour des recherches futures à l'adresse suivante : https://github.com/nttcslab/m2d