HyperAIHyperAI

Command Palette

Search for a command to run...

音声コマンド認識のためのニューラルアテンションモデル

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

概要

本論文では、音声コマンド認識に用いるアテンション付き畳み込み再帰ネットワークを紹介します。アテンションモデルは、自然言語処理、画像キャプショニング、音声処理などのタスクにおいて性能向上の強力なツールとなっています。提案されたモデルは、Google Speech Commands データセット V1 で 94.1%、V2 で 94.5%(20コマンド認識タスクの場合)という新しい最先端の精度を達成しています。同時に、学習可能なパラメータ数がわずか202Kと小型であることも特徴です。結果は、5つの異なるタスク(V1およびV2での20コマンド認識、V1での12コマンド認識、V1での35単語認識、およびV1での左右認識)における以前の畳み込み実装との比較を行っています。詳細な性能結果を示し、提案されたアテンション機構が性能向上に寄与するだけでなく、ネットワークが特定のカテゴリを出力する際に考慮した音声のどの領域かを検証可能であることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています