Temporale Wissensdistillation für Audio-Klassifikation auf Geräten

Die Verbesserung der Leistung von Audio-Klassifikationsmodellen auf Geräten bleibt aufgrund der rechnerischen Beschränkungen mobiler Umgebungen eine Herausforderung. Viele Studien nutzen Knowledge Distillation, um die Vorhersageleistung durch Übertragung von Wissen aus großen Modellen auf Geräte-Modelle zu steigern. Allerdings fehlt den meisten Ansätzen ein Mechanismus zur Ableitung des Kerninhalts zeitlicher Informationen, die für Audio-Klassifikationsaufgaben entscheidend sind, oder es wird häufig eine ähnliche Architektur vorausgesetzt. In diesem Paper stellen wir eine neue Knowledge-Distillation-Methode vor, die darauf abzielt, das in den Aufmerksamkeitsgewichten großer transformerbasierter Modelle enthaltene zeitliche Wissen in on-device-Modelle zu integrieren. Unser Distillation-Verfahren ist für verschiedene Architekturtypen anwendbar, einschließlich nicht-aufmerksamkeitsbasierter Architekturen wie CNNs oder RNNs, und behält dabei die ursprüngliche Netzwerkarchitektur während der Inferenz bei. Anhand umfangreicher Experimente auf einem Audio-Event-Detection-Datensatz und einem geräuschenbasierten Keyword-Spotting-Datensatz zeigen wir, dass unsere vorgeschlagene Methode die Vorhersageleistung über eine Vielzahl von on-device-Architekturen hinweg verbessert.