HyperAIHyperAI

Command Palette

Search for a command to run...

AST:Audio Spectrogram Transformer

Yuan Gong Yu-An Chung James Glass

概要

過去10年間、畳み込みニューラルネットワーク(CNN)は、音声スペクトログラムから対応するラベルへの直接的なマッピングを学習することを目的とするエンドツーエンド音声分類モデルの主要な構成要素として広く採用されてきた。長距離のグローバルな文脈をより効果的に捉えるために、近年ではCNNの上に自己注意機構(self-attention)を導入するという傾向があり、CNNと注意機構を組み合わせたハイブリッドモデルが提案されている。しかし、CNNに依存する必要があるのか、あるいは純粋に注意機構に基づくニューラルネットワークのみで音声分類において十分な性能が得られるのかは、まだ明確でない。本論文では、この問いに答えるために、音声分類のための初めての畳み込みを一切使用せず、純粋に注意機構に基づくモデル「Audio Spectrogram Transformer(AST)」を提案する。ASTは複数の音声分類ベンチマークで評価され、AudioSetでは0.485 mAP、ESC-50では95.6%の精度、Speech Commands V2では98.1%の精度という、新たな最先端(SOTA)の結果を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
AST:Audio Spectrogram Transformer | 記事 | HyperAI超神経