HyperAIHyperAI

Command Palette

Search for a command to run...

ERANNs:音声パターン認識のための効率的残差音声ニューラルネットワーク

Sergey Verbitskiy Vladimir Berikov Viacheslav Vyshegorodtsev

概要

音声パターン認識(Audio Pattern Recognition, APR)は重要な研究テーマであり、私たちの生活と関連する多くの分野に応用可能なため、実用的な場面で有用な高精度かつ効率的なAPRシステムの開発が求められている。本論文では、APRタスクに向けたCNNベースのシステムの推論速度を向上させるための新しい畳み込みニューラルネットワーク(CNN)アーキテクチャと手法を提案する。さらに、提案手法を用いることで、4つの音声データセットを用いた実験において、システムの性能向上が確認された。また、データ拡張技術および転移学習が本システムの性能に与える影響についても検討した。最も優れたシステムは、AudioSetデータセットにおいて平均平均精度(mean average precision, mAP)0.450を達成した。この数値は最先端システムよりやや低いが、提案システムは7.1倍高速で、サイズは9.7倍小さくなる。ESC-50、UrbanSound8K、RAVDESSの各データセットにおいて、それぞれ96.1%、90.8%、74.8%の精度で最先端の結果を達成した。ESC-50データセットでは、前人最高性能を記録したシステムより1.7倍高速で、2.3倍小さく、RAVDESSデータセットでは3.3倍小さくなった。本システムを「効率的残差音声ニューラルネットワーク(Efficient Residual Audio Neural Networks)」と命名した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています