15일 전

AST: 오디오 스펙트로그램 트랜스포머

Yuan Gong, Yu-An Chung, James Glass
AST: 오디오 스펙트로그램 트랜스포머
초록

지난 10년간 컨볼루션 신경망(Convolutional Neural Networks, CNNs)은 오디오 스펙트로그램에서 해당 레이블로 직접 매핑하는 것을 목표로 하는 엔드투엔드 오디오 분류 모델의 주요 구성 요소로 널리 채택되어 왔다. 장거리 전역적 맥락을 더 잘 포착하기 위해 최근에는 CNN 위에 자체 주의(self-attention) 메커니즘을 추가하여 CNN-attention 하이브리드 모델을 구성하는 경향이 나타나고 있다. 그러나 CNN에 의존하는 것이 반드시 필요한지, 또는 순수하게 주의 기반의 신경망만으로도 오디오 분류에서 우수한 성능을 달성할 수 있는지에 대해서는 명확하지 않다. 본 논문에서는 이를 해결하기 위해 오디오 분류를 위한 첫 번째 컨볼루션 없이 순수하게 주의 기반의 모델인 Audio Spectrogram Transformer(이하 AST)를 제안한다. AST는 다양한 오디오 분류 벤치마크에서 평가되었으며, AudioSet에서는 0.485 mAP, ESC-50에서는 95.6% 정확도, Speech Commands V2에서는 98.1% 정확도를 기록하여 각각 새로운 최고 성능을 달성하였다.

AST: 오디오 스펙트로그램 트랜스포머 | 최신 연구 논문 | HyperAI초신경