2ヶ月前

多層注意機構を用いた音声キーワード認識

Ruisen Luo; Tianran Sun; Chen Wang; Miao Du; Zuodong Tang; Kai Zhou; Xiaofeng Gong; Xiaomei Yang

要約

音声認識技術の重要な部分として、自動音声キーワード認識は近年特に研究が進んでいます。このような技術は、車両での音声コマンド認識やロボットとの対話など、インフラや計算リソースが限られている状況下で特に重要となります。現在、自動音声キーワード認識の主流的な手法は、注意機構を備えた長短期記憶（LSTM）ネットワークに基づいています。しかし、特徴抽出時にLSTM層に不可避な情報損失が発生するため、計算された注意重みが偏る問題があります。本論文では、この不正確な注意重みの問題に対処するために新しいアプローチである多層注意機構を提案します。この手法の主なアイデアは、従来の注意機構に加えて、特徴抽出とLSTM以前の層の情報を注意重みの計算に導入することです。これにより、全体的なモデルがより正確かつ集中した領域を持つことができ、注意重みがより正確になります。Google Speech CommandデータセットV2を使用して、畳み込みニューラルネットワーク（CNN）、双方向LSTM循環ニューラルネットワーク（Bi-LSTM RNN）、および提案された注意機構を備えた循環ニューラルネットワーク（RNN）におけるキーワード検出性能について包括的な比較と分析を行いました。実験結果は提案手法の有効性を示す好ましい結果を示しており、提案手法の妥当性を証明しています。提案された多層注意機構は、他の物体検出に関連する研究にも有用であると考えられます。