17日前

EfficientNet-Absolute Zeroを用いた連続音声キーワード検出

Amir Mohammad Rostami, Ali Karimi, Mohammad Ali Akhaee
EfficientNet-Absolute Zeroを用いた連続音声キーワード検出
要約

キーワードスポットリングとは、コンピュータが録音された会話データから特定の単語やフレーズを検出するプロセスである。深層ニューラルネットワークアルゴリズムは、適切なデータセット上で学習が行われれば、この問題を効果的に処理できる強力なエンジンとして機能する。このような目的の下、ペルシア語を対象とした新たなキーワードスポットリングデータセット「フットボールキーワードデータセット(FKD)」が、クラウドソーシングを用いて収集された。このデータセットには18クラスに分類された約31,000件のサンプルが含まれている。また、実用的な連続音声処理環境で利用可能とするために、連続音声合成手法が提案され、FKDの実用性が向上した。さらに、EfficientNet-B0に複合スケーリング法を適用して軽量なアーキテクチャ「EfficientNet-A0(絶対零)」を提案し、キーワードスポットリングタスクに適応させた。最後に、提案アーキテクチャは複数のモデルと比較評価された結果、EfficientNet-A0およびResNetモデルが他のモデルと比較して優れた性能を発揮することが確認された。