HyperAIHyperAI
il y a 16 jours

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio

Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, Mark D. Plumbley
PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio
Résumé

La reconnaissance de motifs audio constitue un sujet de recherche important dans le domaine de l'apprentissage automatique, et englobe plusieurs tâches telles que l'étiquetage audio, la classification de scènes acoustiques, la classification musicale, la classification des émotions vocales et la détection d'événements sonores. Récemment, les réseaux de neurones ont été appliqués pour résoudre les problèmes de reconnaissance de motifs audio. Toutefois, les systèmes précédents étaient conçus sur des jeux de données spécifiques à durée limitée. Récemment, dans le domaine de la vision par ordinateur et du traitement du langage naturel, des systèmes préentraînés sur de grands jeux de données ont montré une bonne généralisation à plusieurs tâches. En revanche, les recherches sur le préentraînement de systèmes sur de grands jeux de données pour la reconnaissance de motifs audio restent limitées. Dans cet article, nous proposons des réseaux neuronaux audio préentraînés (PANNs), entraînés sur le grand jeu de données AudioSet. Ces PANNs sont ensuite transférés à d'autres tâches audio. Nous étudions la performance et la complexité computationnelle des PANNs modélisés par diverses architectures de réseaux de neurones convolutifs. Nous introduisons une architecture appelée Wavegram-Logmel-CNN, qui utilise à la fois le spectrogramme log-mel et le signal temporel comme caractéristiques d'entrée. Notre meilleur système PANN atteint une précision moyenne en moyenne (mAP) de 0,439 sur l'étiquetage AudioSet, surpassant ainsi le meilleur système antérieur ayant obtenu 0,392. Nous transférons les PANNs à six tâches de reconnaissance de motifs audio, et démontrons des performances de pointe dans plusieurs de ces tâches. Nous mettons à disposition le code source et les modèles préentraînés des PANNs : https://github.com/qiuqiangkong/audioset_tagging_cnn.

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio | Articles de recherche récents | HyperAI