2 个月前

进展中：面向TinyML的线性Transformer

{Luca Benini, Michele Magno, Cristian Cioflan, Moritz Scherer}

摘要

我们提出WaveFormer，一种基于线性注意力机制的神经网络架构，旨在实现对超小型机器学习（TinyML）设备的长序列推理。WaveFormer在Google Speech V2关键词识别（KWS）数据集上，针对12类和35类任务分别取得了98.8%和99.1%的新一代最先进准确率，模型权重仅需130 kB存储空间，完全兼容微控制器（MCU）类设备。与当前最优方法相比，Top-1准确率分别提升0.1和0.9个百分点，同时模型规模和计算操作次数分别缩减2.5倍和4.7倍。此外，我们还提出了一种面向硬件优化的8位整数量化算法，用于线性注意力算子，可在不损失精度的前提下，实现低成本、超低功耗微控制器上的高效部署。