MAT-SED : Un Transformers masqué pour l'audio avec un pré-entraînement basé sur la reconstruction masquée pour la détection d'événements sonores

Les méthodes de détection d'événements sonores (SED) qui s'appuient sur un grand réseau d'encodeur Transformer pré-entraîné ont montré des performances prometteuses lors des récents défis DCASE. Cependant, elles continuent à dépendre d'un réseau de contexte basé sur les RNN pour modéliser les dépendances temporelles, principalement en raison de la rareté des données étiquetées. Dans cette étude, nous proposons un modèle SED purement basé sur le Transformer avec une pré-entraîneur fondée sur la reconstruction masquée, appelé MAT-SED. Plus précisément, un Transformer avec codage positionnel relatif est d'abord conçu comme réseau de contexte et pré-entraîné par la tâche de reconstruction masquée sur toutes les données cibles disponibles de manière auto-supervisée. Les encodeurs et le réseau de contexte sont ensuite affinés conjointement de manière semi-supervisée. De plus, une stratégie de fusion de caractéristiques globales-locales est proposée pour améliorer la capacité de localisation. L'évaluation du MAT-SED sur la tâche 4 de DCASE2023 dépasse les performances actuelles de l'état de l'art, atteignant respectivement 0,587/0,896 PSDS1/PSDS2.