HyperAIHyperAI
il y a 2 mois

Distillation de connaissances double pour une détection efficace des événements sonores

Xiao, Yang ; Das, Rohan Kumar
Distillation de connaissances double pour une détection efficace des événements sonores
Résumé

La détection d'événements sonores (SED) est essentielle pour reconnaître des sons spécifiques et leurs emplacements temporels au sein des signaux acoustiques. Cette tâche devient particulièrement complexe pour les applications embarquées, où les ressources de calcul sont limitées. Pour répondre à ce défi, nous présentons dans cette étude un nouveau cadre appelé distillation de connaissance double afin de développer des systèmes SED efficaces. Notre méthode de distillation de connaissance double commence par la distillation de connaissance moyenne temporelle (TAKD), qui utilise un modèle élève moyen obtenu par la moyenne temporelle des paramètres du modèle élève. Cela permet au modèle élève d'apprendre indirectement d'un modèle enseignant pré-entraîné, garantissant une distillation de connaissance stable. Ensuite, nous introduisons la distillation de fonctionnalités enrichie par l'embedding (EEFD), qui consiste à intégrer une couche de distillation d'embedding au sein du modèle élève pour renforcer l'apprentissage contextuel. Sur le jeu de données public d'évaluation DCASE 2023 Task 4A, notre système SED proposé avec la distillation de connaissance double, ne possédant qu'un tiers des paramètres du modèle de référence, montre des performances supérieures en termes de PSDS1 et PSDS2. Ceci souligne l'importance de la distillation de connaissance double proposée pour les systèmes SED compacts, qui peuvent être idéaux pour les appareils aux bords du réseau (edge devices).

Distillation de connaissances double pour une détection efficace des événements sonores | Articles de recherche récents | HyperAI