
초록
지난 10년간 컨볼루션 신경망(Convolutional Neural Networks, CNNs)은 오디오 스펙트로그램에서 해당 레이블로 직접 매핑하는 것을 목표로 하는 엔드투엔드 오디오 분류 모델의 주요 구성 요소로 널리 채택되어 왔다. 장거리 전역적 맥락을 더 잘 포착하기 위해 최근에는 CNN 위에 자체 주의(self-attention) 메커니즘을 추가하여 CNN-attention 하이브리드 모델을 구성하는 경향이 나타나고 있다. 그러나 CNN에 의존하는 것이 반드시 필요한지, 또는 순수하게 주의 기반의 신경망만으로도 오디오 분류에서 우수한 성능을 달성할 수 있는지에 대해서는 명확하지 않다. 본 논문에서는 이를 해결하기 위해 오디오 분류를 위한 첫 번째 컨볼루션 없이 순수하게 주의 기반의 모델인 Audio Spectrogram Transformer(이하 AST)를 제안한다. AST는 다양한 오디오 분류 벤치마크에서 평가되었으며, AudioSet에서는 0.485 mAP, ESC-50에서는 95.6% 정확도, Speech Commands V2에서는 98.1% 정확도를 기록하여 각각 새로운 최고 성능을 달성하였다.