17日前

効率的なキーワードスポットティングのためのブロードキャスト残差学習

Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung
効率的なキーワードスポットティングのためのブロードキャスト残差学習
要約

キーワードスポットリングは、スマートデバイスにおけるデバイスの起動(ウェイクアップ)およびユーザーとのインタラクションにおいて重要な役割を果たすため、重要な研究分野である。しかし、モバイル端末などリソースが限られたデバイス上で効率的に動作しつつ誤りを最小限に抑えることは困難である。本研究では、モデルサイズと計算負荷を抑えた高精度なキーワードスポットリングを実現するため、ブロードキャスト型残差学習(broadcasted residual learning)を提案する。本手法は、大部分の残差関数を1次元時系列畳み込み(1D temporal convolution)で構成しつつ、時系列出力を周波数-時系列次元に拡張するブロードキャスト型残差接続(broadcasted-residual connection)を用いて2次元畳み込みも併用可能とする。この残差マッピングにより、従来の畳み込みニューラルネットワークよりもはるかに少ない計算量で、有用な音声特徴を効果的に表現できる。さらに、このブロードキャスト型残差学習に基づく新しいネットワークアーキテクチャとして「ブロードキャスト残差ネットワーク(Broadcasting-residual network, BC-ResNet)」を提案し、ターゲットデバイスのリソースに応じたモデルスケーリング手法も提示する。BC-ResNetは、Google Speech Commands データセット v1 および v2 において、それぞれ98.0%および98.7%のトップ1精度を達成し、従来手法を常に上回る性能を発揮しながら、計算量とパラメータ数を削減している。実装コードは、https://github.com/Qualcomm-AI-research/bcresnet にて公開されている。