Distillation de connaissance temporelle pour la classification audio embarquée

L’amélioration des performances des modèles de classification audio embarqués demeure un défi en raison des contraintes computationnelles propres aux environnements mobiles. De nombreuses études exploitent la distillation de connaissances afin d’améliorer les performances prédictives en transférant les connaissances provenant de modèles volumineux vers des modèles embarqués. Toutefois, la plupart de ces approches manquent d’un mécanisme permettant de capturer l’essence des informations temporelles, qui sont cruciales pour les tâches de classification audio, ou exigent souvent une architecture similaire. Dans cet article, nous proposons une nouvelle méthode de distillation de connaissances conçue pour intégrer les connaissances temporelles incorporées dans les poids d’attention des grands modèles basés sur les transformateurs dans des modèles embarqués. Notre méthode de distillation est applicable à divers types d’architectures, y compris les architectures non basées sur l’attention telles que les CNNs ou les RNNs, tout en préservant l’architecture initiale du réseau lors de l’inférence. À travers des expérimentations étendues sur un jeu de données de détection d’événements audio et un jeu de données de détection de mots-clés bruités, nous démontrons que la méthode proposée améliore significativement les performances prédictives sur une large variété d’architectures embarquées.