11日前

AST：Audio Spectrogram Transformer

Yuan Gong, Yu-An Chung, James Glass

要約

過去10年間、畳み込みニューラルネットワーク（CNN）は、音声スペクトログラムから対応するラベルへの直接的なマッピングを学習することを目的とするエンドツーエンド音声分類モデルの主要な構成要素として広く採用されてきた。長距離のグローバルな文脈をより効果的に捉えるために、近年ではCNNの上に自己注意機構（self-attention）を導入するという傾向があり、CNNと注意機構を組み合わせたハイブリッドモデルが提案されている。しかし、CNNに依存する必要があるのか、あるいは純粋に注意機構に基づくニューラルネットワークのみで音声分類において十分な性能が得られるのかは、まだ明確でない。本論文では、この問いに答えるために、音声分類のための初めての畳み込みを一切使用せず、純粋に注意機構に基づくモデル「Audio Spectrogram Transformer（AST）」を提案する。ASTは複数の音声分類ベンチマークで評価され、AudioSetでは0.485 mAP、ESC-50では95.6%の精度、Speech Commands V2では98.1%の精度という、新たな最先端（SOTA）の結果を達成した。