2ヶ月前

モバイルデバイスでのリアルタイムキーワード検出のための時間畳み込み

Seungwoo Choi; Seokjun Seo; Beomjun Shin; Hyeongmin Byun; Martin Kersner; Beomsu Kim; Dongyoung Kim; Sungjoo Ha
モバイルデバイスでのリアルタイムキーワード検出のための時間畳み込み
要約

キーワード検出(KWS)は、スマートデバイスにおける音声ベースのユーザーインタラクションを可能にする上で重要な役割を果たしています。深層学習分野での最近の進展により、その優れた精度と堅牢性から、KWSシステムにおいて畳み込みニューラルネットワーク(CNNs)が広く採用されるようになりました。KWSシステムが直面している主な課題は、高精度と低遅延のトレードオフです。しかし、モバイルデバイス上のKWSモデルの実際の遅延に関する定量的な分析はほとんど行われていません。これは特に懸念される点であり、従来の畳み込みに基づくKWSアプローチでは、適切な性能を得るためには大量の演算が必要であることが知られています。本論文では、モバイルデバイス向けリアルタイムKWSのために時間軸方向の畳み込みを提案します。2次元畳み込みに基づくほとんどのKWSアプローチが低周波数域と高周波数域の両方を完全に捉えるために深いアーキテクチャを必要とするのに対し、我々はコンパクトなResNetアーキテクチャを使用した時間軸方向の畳み込みを利用します。Google Speech Commandデータセットにおいて、Google Pixel 1で385倍以上の高速化を達成し、最先端モデルよりも高い精度を示しました。さらに、提案モデルおよび基準モデルの実装を公開しており、モデルの訓練から評価までの一連のパイプラインも含まれています。