PANNs: Großskalige vortrainierte auditive neuronale Netze für die Audio-Mustererkennung

Die Audio-Mustererkennung ist ein bedeutendes Forschungsthema im Bereich des maschinellen Lernens und umfasst mehrere Aufgaben wie Audio-Tagging, akustische Szenenklassifikation, Musikklassifikation, Sprachemotionserkennung sowie Sound-Event-Detektion. In letzter Zeit wurden neuronale Netzwerke eingesetzt, um Probleme der Audio-Mustererkennung zu lösen. Allerdings basierten bisherige Systeme auf spezifischen Datensätzen mit begrenzter Dauer. In der Computer Vision und der natürlichen Sprachverarbeitung haben Systeme, die auf großskaligen Datensätzen vortrainiert wurden, sich hervorragend auf verschiedene Aufgaben generalisieren lassen. Für die Audio-Mustererkennung gibt es jedoch bisher nur wenige Untersuchungen zu Vortrainingsansätzen auf großskaligen Datensätzen. In diesem Artikel stellen wir vortrainierte Audio-Neuronale Netzwerke (PANNs) vor, die auf dem großskaligen AudioSet-Datensatz trainiert wurden. Diese PANNs werden auf andere audio-basierte Aufgaben übertragen. Wir untersuchen die Leistungsfähigkeit und die rechnerische Komplexität von PANNs, die durch verschiedene Convolutional Neural Networks (CNNs) modelliert sind. Wir schlagen eine Architektur namens Wavegram-Logmel-CNN vor, die sowohl Log-Mel-Spektrogramme als auch Waveform als Eingabedaten verwendet. Unser bestes PANN-System erreicht eine state-of-the-art mittlere Genauigkeit (mean average precision, mAP) von 0,439 beim AudioSet-Tagging, was die bisher beste Leistung von 0,392 deutlich übertrifft. Wir übertragen die PANNs auf sechs Aufgaben der Audio-Mustererkennung und zeigen state-of-the-art-Ergebnisse bei mehreren dieser Aufgaben. Wir haben den Quellcode und die vortrainierten Modelle von PANNs veröffentlicht: https://github.com/qiuqiangkong/audioset_tagging_cnn.