2ヶ月前
音声コマンド認識のためのニューラルアテンションモデル
Douglas Coimbra de Andrade; Sabato Leo; Martin Loesener Da Silva Viana; Christoph Bernkopf

要約
本論文では、音声コマンド認識に用いるアテンション付き畳み込み再帰ネットワークを紹介します。アテンションモデルは、自然言語処理、画像キャプショニング、音声処理などのタスクにおいて性能向上の強力なツールとなっています。提案されたモデルは、Google Speech Commands データセット V1 で 94.1%、V2 で 94.5%(20コマンド認識タスクの場合)という新しい最先端の精度を達成しています。同時に、学習可能なパラメータ数がわずか202Kと小型であることも特徴です。結果は、5つの異なるタスク(V1およびV2での20コマンド認識、V1での12コマンド認識、V1での35単語認識、およびV1での左右認識)における以前の畳み込み実装との比較を行っています。詳細な性能結果を示し、提案されたアテンション機構が性能向上に寄与するだけでなく、ネットワークが特定のカテゴリを出力する際に考慮した音声のどの領域かを検証可能であることを示しています。