il y a 6 mois

Résumé

La reconnaissance de motifs audio constitue un sujet de recherche important dans le domaine de l'apprentissage automatique, et englobe plusieurs tâches telles que l'étiquetage audio, la classification de scènes acoustiques, la classification musicale, la classification des émotions vocales et la détection d'événements sonores. Récemment, les réseaux de neurones ont été appliqués pour résoudre les problèmes de reconnaissance de motifs audio. Toutefois, les systèmes précédents étaient conçus sur des jeux de données spécifiques à durée limitée. Récemment, dans le domaine de la vision par ordinateur et du traitement du langage naturel, des systèmes préentraînés sur de grands jeux de données ont montré une bonne généralisation à plusieurs tâches. En revanche, les recherches sur le préentraînement de systèmes sur de grands jeux de données pour la reconnaissance de motifs audio restent limitées. Dans cet article, nous proposons des réseaux neuronaux audio préentraînés (PANNs), entraînés sur le grand jeu de données AudioSet. Ces PANNs sont ensuite transférés à d'autres tâches audio. Nous étudions la performance et la complexité computationnelle des PANNs modélisés par diverses architectures de réseaux de neurones convolutifs. Nous introduisons une architecture appelée Wavegram-Logmel-CNN, qui utilise à la fois le spectrogramme log-mel et le signal temporel comme caractéristiques d'entrée. Notre meilleur système PANN atteint une précision moyenne en moyenne (mAP) de 0,439 sur l'étiquetage AudioSet, surpassant ainsi le meilleur système antérieur ayant obtenu 0,392. Nous transférons les PANNs à six tâches de reconnaissance de motifs audio, et démontrons des performances de pointe dans plusieurs de ces tâches. Nous mettons à disposition le code source et les modèles préentraînés des PANNs : https://github.com/qiuqiangkong/audioset_tagging_cnn.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Classification Audio

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Approche/Framework

Audio

Tâche

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Classification Audio

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Approche/Framework

Audio

Tâche

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PANNs : Réseaux neuronaux audio préentraînés à grande échelle pour la reconnaissance de motifs audio

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters