18 天前

进展中:面向TinyML的线性Transformer

{Luca Benini, Michele Magno, Cristian Cioflan, Moritz Scherer}
摘要

我们提出WaveFormer,一种基于线性注意力机制的神经网络架构,旨在实现对超小型机器学习(TinyML)设备的长序列推理。WaveFormer在Google Speech V2关键词识别(KWS)数据集上,针对12类和35类任务分别取得了98.8%和99.1%的新一代最先进准确率,模型权重仅需130 kB存储空间,完全兼容微控制器(MCU)类设备。与当前最优方法相比,Top-1准确率分别提升0.1和0.9个百分点,同时模型规模和计算操作次数分别缩减2.5倍和4.7倍。此外,我们还提出了一种面向硬件优化的8位整数量化算法,用于线性注意力算子,可在不损失精度的前提下,实现低成本、超低功耗微控制器上的高效部署。