HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente großskalige Audio-Tagging durch Wissenstransfer von Transformer zu CNN

Florian Schmid Khaled Koutini Gerhard Widmer

Zusammenfassung

Audio Spectrogram Transformer-Modelle dominieren derzeit den Bereich des Audio Tagging und überflügeln damit die früher vorherrschenden Faltungsneuralen Netze (Convolutional Neural Networks, CNNs). Ihre Überlegenheit beruht auf der Fähigkeit, skalierbar zu sein und große, weitreichende Datensätze wie AudioSet effektiv auszunutzen. Im Vergleich zu CNNs sind Transformer jedoch deutlich anspruchsvoller hinsichtlich Modellgröße und rechnerischer Anforderungen. Wir stellen ein Trainingsverfahren für effiziente CNNs vor, das auf einer offline durchgeführten Wissensübertragung (Knowledge Distillation, KD) von hochleistungsfähigen, jedoch komplexen Transformers basiert. Das vorgeschlagene Trainingschema sowie die effiziente CNN-Architektur auf Basis von MobileNetV3 führen zu Modellen, die in Bezug auf Parameter- und Recheneffizienz sowie Vorhersagegenauigkeit die bisherigen Lösungen übertreffen. Wir stellen Modelle unterschiedlicher Komplexität bereit, die sich von einfachen, leichtgewichtigen Modellen bis hin zu einem neuen SOTA (State-of-the-Art)-Ergebnis von 0,483 mAP auf AudioSet erstrecken. Der Quellcode ist verfügbar unter: https://github.com/fschmid56/EfficientAT


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp