HyperAIHyperAI

Command Palette

Search for a command to run...

EdgeCRNN:キーワード検出向けのエッジコンピューティング指向音響特徴強化モデル

Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei

概要

キーワードスポットティング(KWS)は、自動音声認識(ASR)の重要な分野であり、エッジコンピューティングデバイスにおいて広く利用されている。KWSの目的は、高い認識精度と低い誤検出率(FAR)を実現しつつ、メモリ消費、計算コスト、レイテンシを低減することである。しかし、エッジコンピューティングデバイスではリソースが限られているため、KWSの実装には大きな課題が伴う。このような状況下で、軽量なディープラーニングモデルおよび構造が、KWS分野において優れた成果を上げており、効率的な性能を維持している。本稿では、エッジコンピューティングデバイス向けに設計された新しい畳み込み再帰型ニューラルネットワーク(CRNN)アーキテクチャであるEdgeCRNNを提案する。EdgeCRNNは、深度方向分離畳み込み(depthwise separable convolution)と残差構造(residual structure)を基盤とし、特徴量強化手法を導入している。Google Speech Commandsデータセットを用いた実験結果によると、Raspberry Pi 3B+上でEdgeCRNNは1秒間に11.1件の音声データを処理可能であり、Tpool2と比較して2.2倍の処理速度を達成した。また、Tpool2と比較して精度は98.05%に達し、性能面でも競争力を持つことが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています