HyperAIHyperAI
il y a 17 jours

Une approche en deux étapes pour la classification robuste des scènes acoustiques face aux dispositifs

Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee
Une approche en deux étapes pour la classification robuste des scènes acoustiques face aux dispositifs
Résumé

Pour améliorer la robustesse des dispositifs, une caractéristique clé très souhaitable dans un système compétitif de classification d’ambiance acoustique (ASC) fondé sur les données, nous proposons un nouveau système en deux étapes basé sur des réseaux de neurones convolutifs entièrement connectés (CNN). Notre système en deux étapes exploite une combinaison de scores spécifique, fondée sur deux classifieurs CNN : (i) le premier CNN classe les entrées acoustiques parmi trois catégories larges, et (ii) le second CNN classe les mêmes entrées parmi dix catégories plus fines. Trois architectures CNN différentes sont explorées pour implémenter les classifieurs en deux étapes, et une stratégie de sous-échantillonnage fréquentiel est étudiée. En outre, de nouvelles méthodes d’augmentation de données pour l’ASC sont également investiguées. Évaluées sur la tâche 1a du DCASE 2020, nos résultats montrent que le système ASC proposé atteint une précision de pointe sur l’ensemble de développement, où notre meilleur système, une fusion en deux étapes d’ensembles de CNN, obtient une précision moyenne de 81,9 % sur les données de test provenant de plusieurs dispositifs, et une amélioration significative sur les dispositifs non vus. Enfin, l’analyse de saliency neuronale basée sur la cartographie d’activation de classe (CAM) fournit de nouvelles perspectives sur les motifs appris par nos modèles.