ERANNs : Réseaux neuronaux audio résiduels efficaces pour la reconnaissance de motifs audio

La reconnaissance de motifs audio (APR) est un domaine de recherche important pouvant être appliqué à plusieurs domaines liés à notre vie quotidienne. Par conséquent, il est essentiel de développer des systèmes d'APR précis et efficaces, car ils s'avèrent très utiles dans des applications réelles. Dans cet article, nous proposons une nouvelle architecture de réseau de neurones convolutifs (CNN) ainsi qu'une méthode visant à améliorer la vitesse d'inférence des systèmes basés sur les CNN pour les tâches d'APR. De plus, grâce à la méthode proposée, nous parvenons à améliorer les performances de nos systèmes, comme le confirment les expériences menées sur quatre jeux de données audio. Nous étudions également l'impact des techniques d'augmentation de données et de l'apprentissage transféré sur les performances de nos systèmes. Notre meilleur système atteint une précision moyenne en moyenne (mAP) de 0,450 sur le jeu de données AudioSet. Bien que cette valeur soit inférieure à celle du système de l’état de l’art, notre système est 7,1 fois plus rapide et 9,7 fois plus petit. Sur les jeux de données ESC-50, UrbanSound8K et RAVDESS, nous obtenons des résultats de l’état de l’art, avec des précisions respectives de 0,961, 0,908 et 0,748. Notre système pour le jeu de données ESC-50 est 1,7 fois plus rapide et 2,3 fois plus petit que le meilleur système antérieur. Pour le jeu de données RAVDESS, il est 3,3 fois plus petit que le système précédent. Nous désignons nos systèmes sous le nom d’« Efficient Residual Audio Neural Networks ».