HyperAIHyperAI
vor 16 Tagen

Effiziente großskalige Audio-Tagging durch Wissenstransfer von Transformer zu CNN

Florian Schmid, Khaled Koutini, Gerhard Widmer
Effiziente großskalige Audio-Tagging durch Wissenstransfer von Transformer zu CNN
Abstract

Audio Spectrogram Transformer-Modelle dominieren derzeit den Bereich des Audio Tagging und überflügeln damit die früher vorherrschenden Faltungsneuralen Netze (Convolutional Neural Networks, CNNs). Ihre Überlegenheit beruht auf der Fähigkeit, skalierbar zu sein und große, weitreichende Datensätze wie AudioSet effektiv auszunutzen. Im Vergleich zu CNNs sind Transformer jedoch deutlich anspruchsvoller hinsichtlich Modellgröße und rechnerischer Anforderungen. Wir stellen ein Trainingsverfahren für effiziente CNNs vor, das auf einer offline durchgeführten Wissensübertragung (Knowledge Distillation, KD) von hochleistungsfähigen, jedoch komplexen Transformers basiert. Das vorgeschlagene Trainingschema sowie die effiziente CNN-Architektur auf Basis von MobileNetV3 führen zu Modellen, die in Bezug auf Parameter- und Recheneffizienz sowie Vorhersagegenauigkeit die bisherigen Lösungen übertreffen. Wir stellen Modelle unterschiedlicher Komplexität bereit, die sich von einfachen, leichtgewichtigen Modellen bis hin zu einem neuen SOTA (State-of-the-Art)-Ergebnis von 0,483 mAP auf AudioSet erstrecken. Der Quellcode ist verfügbar unter: https://github.com/fschmid56/EfficientAT

Effiziente großskalige Audio-Tagging durch Wissenstransfer von Transformer zu CNN | Neueste Forschungsarbeiten | HyperAI