vor 16 Tagen

PSLA: Verbesserung der Audio-Tagging durch Pretraining, Sampling, Labeling und Aggregation

Yuan Gong, Yu-An Chung, James Glass

Abstract

Audio Tagging ist ein aktives Forschungsfeld mit einer Vielzahl von Anwendungen. Seit der Veröffentlichung von AudioSet wurden erhebliche Fortschritte bei der Verbesserung der Modellleistung erzielt, die hauptsächlich auf der Entwicklung neuer Modellarchitekturen und Aufmerksamkeitsmodule beruhen. Dennoch stellen wir fest, dass geeignete Trainingsmethoden für die Entwicklung von Audio-Tagging-Modellen auf AudioSet ebenso wichtig sind, jedoch bisher nicht die Aufmerksamkeit erhalten haben, die sie verdienen. Um diese Lücke zu schließen, präsentieren wir in dieser Arbeit PSLA – eine Sammlung von Trainingsmethoden, die die Modellgenauigkeit signifikant steigern können. Dazu gehören die Vortrainierung auf ImageNet, ausgewogene Stichprobenziehung, Datenaugmentierung, Label-Verbesserung, Modellaggregation sowie deren jeweilige Design-Entscheidungen. Durch die Anwendung dieser Techniken beim Training eines EfficientNet erreichen wir ein einzelnes Modell (mit 13,6 Mio. Parametern) und ein Ensemblesystem, die jeweils mAP-Werte von 0,444 und 0,474 auf AudioSet erzielen – damit übertrifft das neue Modell das bisher beste System mit 0,439 mAP und 81 Mio. Parametern. Darüber hinaus erreicht unser Modell zudem eine neue State-of-the-Art-Genauigkeit von 0,567 mAP auf FSD50K.