
要約
キーワード検出(KWS)は、スマートデバイスでの音声ベースのユーザインタラクションを可能にする重要な要素です。良好なユーザ体験のために、リアルタイム応答と高い精度が求められます。最近、神経ネットワークが従来の音声処理アルゴリズムに比べ優れた精度を持つことから、KWSアーキテクチャの選択肢として魅力的なものとなっています。KWSアプリケーションは常にオンであるため、電力消費量が厳しく制約されており、通常はメモリや計算能力が限られた小さなマイクロコントローラー上で動作します。KWS用の神経ネットワークアーキテクチャの設計では、これらの制約を考慮する必要があります。本研究では、リソース制約のあるマイクロコントローラー上でKWSを実行するための神経ネットワークアーキテクチャの評価と探索を行いました。文献で報告されている様々な神経ネットワークアーキテクチャをキーワード検出のために訓練し、それらの精度とメモリ/計算要件を比較しました。結果として、これらの神経ネットワークアーキテクチャを最適化することで、マイクロコントローラーのメモリや計算能力の制約内で動作させつつ精度を犠牲にすることなく設計できることが示されました。さらに、深度別分離畳み込みニューラルネットワーク(DS-CNN)について探り、他の神経ネットワークアーキテクチャとの比較を行いました。DS-CNNは95.4%の精度を達成しており、同程度のパラメータ数を持つDNNモデルよりも約10%高い精度を示しています。