Classification des sons environnementaux sur le bord : Une pipeline pour les réseaux acoustiques profonds sur des appareils à ressources extrêmement limitées

Des efforts considérables sont investis pour apporter des classifications et des reconnaissances de pointe aux appareils embarqués présentant des contraintes extrêmes en termes de ressources (mémoire, vitesse et absence de support GPU). Ici, nous présentons le premier réseau profond pour la reconnaissance acoustique qui est petit, flexible et favorable à la compression tout en atteignant des performances de pointe pour la classification d'audio brut. Au lieu de concevoir une solution unique, nous proposons une chaîne générique qui convertit automatiquement un grand réseau neuronal convolutif profond par compression et quantification en un réseau adapté aux appareils embarqués à faibles ressources. Après avoir introduit ACDNet, qui obtient une précision supérieure à l'état de l'art sur ESC-10 (96,65 %), ESC-50 (87,10 %), UrbanSound8K (84,45 %) et AudioEvent (92,57 %), nous décrivons la chaîne de compression et montrons qu'elle permet d'obtenir une réduction de taille de 97,22 % et une réduction des FLOP de 97,28 % tout en maintenant une précision proche de l'état de l'art de 96,25 %, 83,65 %, 78,27 % et 89,69 % sur ces jeux de données. Nous décrivons une mise en œuvre réussie sur un microcontrôleur standard hors ligne et rapportons des tests réussis sur des jeux de données du monde réel au-delà des benchmarks en laboratoire.