Fortlaufende Arbeit: Lineare Transformer für TinyML
Wir stellen den WaveFormer vor, eine neuronale Netzarchitektur auf Basis eines linearen Attention-Transformers, die eine Inference für lange Sequenzen auf TinyML-Geräten ermöglicht. WaveFormer erreicht eine neue State-of-the-Art-Genauigkeit von 98,8 % und 99,1 % auf dem Google Speech V2-Datensatz für Keyword Spotting (KWS) bei den Aufgaben mit 12 und 35 Klassen, wobei lediglich 130 kB Speicherplatz für die Gewichte benötigt werden – kompatibel mit MCU-Klassen-Geräten. Die Top-1-Accuracy wird um 0,1 und 0,9 Prozentpunkte verbessert, während gleichzeitig die Modellgröße und die Anzahl der Operationen im Vergleich zum Stand der Technik um den Faktor 2,5 bzw. 4,7 reduziert werden. Zudem präsentieren wir einen hardwarefreundlichen Quantisierungsalgorithmus mit 8-Bit-Ganzzahlen für den linearen Attention-Operator, der eine effiziente Bereitstellung auf kostengünstigen, ultrapower-sparenden Mikrocontrollern ohne Genauigkeitsverlust ermöglicht.