8ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei

概要

キーワードスポットティング（KWS）は、自動音声認識（ASR）の重要な分野であり、エッジコンピューティングデバイスにおいて広く利用されている。KWSの目的は、高い認識精度と低い誤検出率（FAR）を実現しつつ、メモリ消費、計算コスト、レイテンシを低減することである。しかし、エッジコンピューティングデバイスではリソースが限られているため、KWSの実装には大きな課題が伴う。このような状況下で、軽量なディープラーニングモデルおよび構造が、KWS分野において優れた成果を上げており、効率的な性能を維持している。本稿では、エッジコンピューティングデバイス向けに設計された新しい畳み込み再帰型ニューラルネットワーク（CRNN）アーキテクチャであるEdgeCRNNを提案する。EdgeCRNNは、深度方向分離畳み込み（depthwise separable convolution）と残差構造（residual structure）を基盤とし、特徴量強化手法を導入している。Google Speech Commandsデータセットを用いた実験結果によると、Raspberry Pi 3B+上でEdgeCRNNは1秒間に11.1件の音声データを処理可能であり、Tpool2と比較して2.2倍の処理速度を達成した。また、Tpool2と比較して精度は98.05％に達し、性能面でも競争力を持つことが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei

概要

キーワードスポットティング（KWS）は、自動音声認識（ASR）の重要な分野であり、エッジコンピューティングデバイスにおいて広く利用されている。KWSの目的は、高い認識精度と低い誤検出率（FAR）を実現しつつ、メモリ消費、計算コスト、レイテンシを低減することである。しかし、エッジコンピューティングデバイスではリソースが限られているため、KWSの実装には大きな課題が伴う。このような状況下で、軽量なディープラーニングモデルおよび構造が、KWS分野において優れた成果を上げており、効率的な性能を維持している。本稿では、エッジコンピューティングデバイス向けに設計された新しい畳み込み再帰型ニューラルネットワーク（CRNN）アーキテクチャであるEdgeCRNNを提案する。EdgeCRNNは、深度方向分離畳み込み（depthwise separable convolution）と残差構造（residual structure）を基盤とし、特徴量強化手法を導入している。Google Speech Commandsデータセットを用いた実験結果によると、Raspberry Pi 3B+上でEdgeCRNNは1秒間に11.1件の音声データを処理可能であり、Tpool2と比較して2.2倍の処理速度を達成した。また、Tpool2と比較して精度は98.05％に達し、性能面でも競争力を持つことが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています