Command Palette
Search for a command to run...
EdgeCRNN:キーワード検出向けのエッジコンピューティング指向音響特徴強化モデル
EdgeCRNN:キーワード検出向けのエッジコンピューティング指向音響特徴強化モデル
Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei
概要
キーワードスポットティング(KWS)は、自動音声認識(ASR)の重要な分野であり、エッジコンピューティングデバイスにおいて広く利用されている。KWSの目的は、高い認識精度と低い誤検出率(FAR)を実現しつつ、メモリ消費、計算コスト、レイテンシを低減することである。しかし、エッジコンピューティングデバイスではリソースが限られているため、KWSの実装には大きな課題が伴う。このような状況下で、軽量なディープラーニングモデルおよび構造が、KWS分野において優れた成果を上げており、効率的な性能を維持している。本稿では、エッジコンピューティングデバイス向けに設計された新しい畳み込み再帰型ニューラルネットワーク(CRNN)アーキテクチャであるEdgeCRNNを提案する。EdgeCRNNは、深度方向分離畳み込み(depthwise separable convolution)と残差構造(residual structure)を基盤とし、特徴量強化手法を導入している。Google Speech Commandsデータセットを用いた実験結果によると、Raspberry Pi 3B+上でEdgeCRNNは1秒間に11.1件の音声データを処理可能であり、Tpool2と比較して2.2倍の処理速度を達成した。また、Tpool2と比較して精度は98.05%に達し、性能面でも競争力を持つことが確認された。