HyperAIHyperAI
il y a 17 jours

Affiner le modèle préentraîné ATST pour la détection d'événements sonores

Nian Shao, Xian Li, Xiaofei Li
Affiner le modèle préentraîné ATST pour la détection d'événements sonores
Résumé

La détection d’événements sonores (SED) souffre fréquemment d’un manque de données. Le système de référence récent proposé dans la tâche 4 du défi DCASE2023 exploite des modèles pré-entraînés à apprentissage auto-supervisé (SelfSL) de grande taille afin de atténuer cette limitation, les modèles pré-entraînés permettant de produire des représentations plus discriminatives pour la SED. Toutefois, dans le système de référence du défi ainsi que dans la majorité des soumissions, ces modèles pré-entraînés sont traités comme des extracteurs de caractéristiques figés, et l’ajustement fin (fine-tuning) de ces modèles a été peu étudié. Dans ce travail, nous étudions une méthode d’ajustement fin des modèles pré-entraînés pour la SED. Nous introduisons tout d’abord ATST-Frame, notre nouveau modèle SelfSL proposé, dans le système de SED. ATST-Frame a été spécifiquement conçu pour apprendre des représentations au niveau des trames des signaux audio et a atteint des performances de pointe (SOTA) sur une série de tâches en aval. Nous proposons ensuite une méthode d’ajustement fin d’ATST-Frame utilisant à la fois des données non étiquetées (du domaine) et des données étiquetées pour la SED. Nos expériences montrent que la méthode proposée permet de surmonter le problème de surajustement lors de l’ajustement fin du grand modèle pré-entraîné, et que notre système de SED obtient de nouveaux résultats SOTA de 0,587/0,812 sur les métriques PSDS1/PSDS2 sur le jeu de données de la tâche 4 du défi DCASE.

Affiner le modèle préentraîné ATST pour la détection d'événements sonores | Articles de recherche récents | HyperAI