17日前
キーワードTransformer:キーワードスポットティングのための自己注意モデル
Axel Berg, Mark O', Connor, Miguel Tairum Cruz

要約
Transformerアーキテクチャは、自然言語処理、コンピュータビジョン、音声認識をはじめとする多くの分野で成功を収めている。キーワードスポットティングにおいては、自己注意(self-attention)は主に畳み込み型または再帰型エンコーダーの上位に用いられてきた。本研究では、Transformerアーキテクチャをキーワードスポットティングに適応する多様な手法を検討し、完全に自己注意構造を採用する「キーワードTransformer(Keyword Transformer, KWT)」を提案する。KWTは事前学習や追加データを一切用いずに、複数のタスクにおいて最先端の性能を上回る。驚くべきことに、畳み込み層、再帰層、注意層を組み合わせたより複雑なモデルよりも、この単純なアーキテクチャが優れた性能を発揮する。KWTはこれらのモデルの即時置き換えとして利用可能であり、Google Speech Commandsデータセットにおいて、12コマンドタスクで98.6%、35コマンドタスクで97.7%の精度を達成し、それぞれ新たなベンチマーク記録を樹立した。