2ヶ月前

進行中の研究：TinyMLにおけるLinear Transformer

{Luca Benini, Michele Magno, Cristian Cioflan, Moritz Scherer}

要約

我々は、TinyMLデバイスにおける長文系列の推論を可能にするため、線形アテンションを基盤とするニューラルネットワークアーキテクチャ「WaveFormer」を提案する。WaveFormerは、Google Speech V2キーワード検出（KWS）データセットにおける12クラスおよび35クラス問題において、それぞれ98.8％および99.1％という新たな最良精度を達成し、重みの保存領域をわずか130kBに抑えることで、MCUクラスのデバイスと互換性を持つ。従来の最先端技術と比較して、モデルサイズと演算回数をそれぞれ2.5倍および4.7倍削減しつつ、トップ1精度を0.1ポイントおよび0.9ポイント向上させた。さらに、低コスト・超低消費電力マイコンにおける効率的な展開を実現するため、線形アテンション演算子向けのハードウェアに優しい8ビット整数量子化アルゴリズムも提案した。これにより、精度の低下を伴わずに実装が可能となる。