HyperAIHyperAI

Command Palette

Search for a command to run...

キーワードスポットティングにおけるDenseNetとBiLSTMの有効な組み合わせ

N. Xiao M. Zeng

概要

キーワードスポットティング(KWS)は、スマート端末やサービスロボットにおける人間とコンピュータのインタラクションを支える主要な要素であり、モデルのフットプリントサイズを小さく保ちつつ検出精度を最大化することを目的としている。本論文では、DenseNetが局所的な特徴マップを効果的に抽出する能力を活かし、KWS向けに新たなネットワークアーキテクチャ「DenseNet-BiLSTM」を提案する。本アーキテクチャにおいて、DenseNetは局所特徴の抽出に用いられ、BiLSTMは時系列特徴の把握に活用される。一般的にDenseNetは画像認識タスクに用いられるが、音声データに対しては文脈情報を損なう可能性がある。これを回避するため、時間軸方向のプーリングを遷移層から削除することで音声の時系列情報を保持するよう設計された、DenseNetの変種「DenseNet-Speech」を提案する。さらに、モデルの小型化を図るため、少ない密度ブロックとフィルタ数を採用し、モバイルデバイスにおける処理時間の削減を実現している。実験結果から、DenseNet-Speechから得られる特徴マップは時系列情報を良好に保持していることが確認された。また、Google Speech Commandsデータセットにおける精度評価において、本手法は最先端の手法を上回る性能を達成した。DenseNet-BiLSTMは、20種類のキーワード認識タスクにおいて、223,000パラメータの可学習パラメータで96.6%の精度を達成することが可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています