HyperAIHyperAI

Command Palette

Search for a command to run...

PSLA: Verbesserung der Audio-Tagging durch Pretraining, Sampling, Labeling und Aggregation

Yuan Gong Yu-An Chung James Glass

Zusammenfassung

Audio Tagging ist ein aktives Forschungsfeld mit einer Vielzahl von Anwendungen. Seit der Veröffentlichung von AudioSet wurden erhebliche Fortschritte bei der Verbesserung der Modellleistung erzielt, die hauptsächlich auf der Entwicklung neuer Modellarchitekturen und Aufmerksamkeitsmodule beruhen. Dennoch stellen wir fest, dass geeignete Trainingsmethoden für die Entwicklung von Audio-Tagging-Modellen auf AudioSet ebenso wichtig sind, jedoch bisher nicht die Aufmerksamkeit erhalten haben, die sie verdienen. Um diese Lücke zu schließen, präsentieren wir in dieser Arbeit PSLA – eine Sammlung von Trainingsmethoden, die die Modellgenauigkeit signifikant steigern können. Dazu gehören die Vortrainierung auf ImageNet, ausgewogene Stichprobenziehung, Datenaugmentierung, Label-Verbesserung, Modellaggregation sowie deren jeweilige Design-Entscheidungen. Durch die Anwendung dieser Techniken beim Training eines EfficientNet erreichen wir ein einzelnes Modell (mit 13,6 Mio. Parametern) und ein Ensemblesystem, die jeweils mAP-Werte von 0,444 und 0,474 auf AudioSet erzielen – damit übertrifft das neue Modell das bisher beste System mit 0,439 mAP und 81 Mio. Parametern. Darüber hinaus erreicht unser Modell zudem eine neue State-of-the-Art-Genauigkeit von 0,567 mAP auf FSD50K.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp