il y a 2 mois

En cours de réalisation : Les transformateurs linéaires pour TinyML

{Luca Benini, Michele Magno, Cristian Cioflan, Moritz Scherer}

Résumé

Nous présentons WaveFormer, une architecture de réseau de neurones fondée sur un transformateur à attention linéaire, conçue pour permettre l’inférence sur de longues séquences sur des dispositifs TinyML. WaveFormer atteint une nouvelle performance record en précision de 98,8 % et 99,1 % sur le jeu de données de détection de mots-clés (KWS) Google Speech V2, pour les problèmes à 12 et 35 classes respectivement, avec seulement 130 ko de mémoire de poids, ce qui est compatible avec les microcontrôleurs (MCU). La précision Top-1 est améliorée de 0,1 et 0,9 point de pourcentage, tout en réduisant de 2,5× et 4,7× la taille du modèle et le nombre d’opérations par rapport à l’état de l’art. Nous proposons également un algorithme de quantification entière à 8 bits, adapté aux contraintes matérielles, pour l’opérateur d’attention linéaire, permettant un déploiement efficace sur des microcontrôleurs à faible coût et à très faible consommation sans perte de précision.