17日前

キーワードスポットティングにおけるDenseNetとBiLSTMの有効な組み合わせ

{N. Xiao, M. Zeng}
要約

キーワードスポットティング(KWS)は、スマート端末やサービスロボットにおける人間とコンピュータのインタラクションを支える主要な要素であり、モデルのフットプリントサイズを小さく保ちつつ検出精度を最大化することを目的としている。本論文では、DenseNetが局所的な特徴マップを効果的に抽出する能力を活かし、KWS向けに新たなネットワークアーキテクチャ「DenseNet-BiLSTM」を提案する。本アーキテクチャにおいて、DenseNetは局所特徴の抽出に用いられ、BiLSTMは時系列特徴の把握に活用される。一般的にDenseNetは画像認識タスクに用いられるが、音声データに対しては文脈情報を損なう可能性がある。これを回避するため、時間軸方向のプーリングを遷移層から削除することで音声の時系列情報を保持するよう設計された、DenseNetの変種「DenseNet-Speech」を提案する。さらに、モデルの小型化を図るため、少ない密度ブロックとフィルタ数を採用し、モバイルデバイスにおける処理時間の削減を実現している。実験結果から、DenseNet-Speechから得られる特徴マップは時系列情報を良好に保持していることが確認された。また、Google Speech Commandsデータセットにおける精度評価において、本手法は最先端の手法を上回る性能を達成した。DenseNet-BiLSTMは、20種類のキーワード認識タスクにおいて、223,000パラメータの可学習パラメータで96.6%の精度を達成することが可能である。