HyperAIHyperAI

Command Palette

Search for a command to run...

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

La reconnaissance de motifs audio constitue un sujet de recherche important dans le domaine de l'apprentissage automatique, et englobe plusieurs tâches telles que l'étiquetage audio, la classification de scènes acoustiques, la classification musicale, la classification des émotions vocales et la détection d'événements sonores. Récemment, les réseaux de neurones ont été appliqués pour résoudre les problèmes de reconnaissance de motifs audio. Toutefois, les systèmes précédents étaient conçus sur des jeux de données spécifiques à durée limitée. Récemment, dans le domaine de la vision par ordinateur et du traitement du langage naturel, des systèmes préentraînés sur de grands jeux de données ont montré une bonne généralisation à plusieurs tâches. En revanche, les recherches sur le préentraînement de systèmes sur de grands jeux de données pour la reconnaissance de motifs audio restent limitées. Dans cet article, nous proposons des réseaux neuronaux audio préentraînés (PANNs), entraînés sur le grand jeu de données AudioSet. Ces PANNs sont ensuite transférés à d'autres tâches audio. Nous étudions la performance et la complexité computationnelle des PANNs modélisés par diverses architectures de réseaux de neurones convolutifs. Nous introduisons une architecture appelée Wavegram-Logmel-CNN, qui utilise à la fois le spectrogramme log-mel et le signal temporel comme caractéristiques d'entrée. Notre meilleur système PANN atteint une précision moyenne en moyenne (mAP) de 0,439 sur l'étiquetage AudioSet, surpassant ainsi le meilleur système antérieur ayant obtenu 0,392. Nous transférons les PANNs à six tâches de reconnaissance de motifs audio, et démontrons des performances de pointe dans plusieurs de ces tâches. Nous mettons à disposition le code source et les modèles préentraînés des PANNs : https://github.com/qiuqiangkong/audioset_tagging_cnn.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp