Dynamische Faltungsneuronale Netze als effiziente vortrainierte Audiomodelle

Die Einführung großer Audiodatensätze wie AudioSet bahnte den Weg für die Herrschaft von Transformers im Audiomodus und ersetze CNNs als die führende neuronale Netzarchitektur für viele Aufgaben. Audio-Spektrogramm-Transformers sind hervorragend darin, große Datensätze zu nutzen, und erzeugen leistungsstarke vorab trainierte Modelle, die CNNs bei der Feinabstimmung auf nachgelagerte Aufgaben übertreffen. Allerdings sind aktuelle beliebte Audio-Spektrogramm-Transformers in Bezug auf rechnerische Komplexität anspruchsvoller als CNNs. Kürzlich haben wir gezeigt, dass durch das Verwenden von Transformer-to-CNN Knowledge Distillation effiziente CNNs mit und sogar über Transformers auf großen Datensätzen mithalten können. In dieser Arbeit erweitern wir diese Forschungsrichtung und erhöhen die Kapazität effizienter CNNs durch die Einführung dynamischer CNN-Blöcke, die aus dynamischen Nichtlinearitäten, dynamischen Faltungen und Aufmerksamkeitsmechanismen bestehen. Wir zeigen, dass diese dynamischen CNNs traditionelle effiziente CNNs in Bezug auf Leistung-Komplexität-Kompromiss und Parameter-Effizienz beim Task des Audiotaggings im großen Audiodatensatz AudioSet übertreffen. Unsere Experimente deuten zudem darauf hin, dass die eingeführten dynamischen CNNs eine bessere Leistung bei nachgelagerten Aufgaben erzielen und sich gut skalieren lassen, wodurch sie nicht nur die Leistung von Transformers erreichen, sondern sie sogar bei AudioSet und mehreren nachgelagerten Aufgaben übertreffen.