BEATs: 음향 토큰화기를 활용한 오디오 사전 학습

최근 몇 년간 언어, 비전, 음성 및 오디오 분야에서 자기지도 학습(self-supervised learning, SSL)의 급속한 성장이 관찰되었다. 다른 모달리티에서는 일반적으로 이산 레이블 예측이 널리 채택되고 있으나, 현재 최고 성능을 기록하는 오디오 SSL 모델들은 여전히 재구성 손실(reconstruction loss)을 전훈련(pre-training)에 사용하고 있다. 재구성 손실 대비, 의미가 풍부한 이산 레이블 예측은 SSL 모델이 고수준의 오디오 의미를 추상화하고 인간의 인지 방식과 마찬가지로 부가적인 세부 정보를 무시하도록 유도한다. 그러나 오디오의 연속적 특성과 음성과 달리 존재하지 않는 음소 시퀀스라는 점으로 인해, 일반적인 오디오 전훈련을 위한 의미가 풍부한 음성 토크나이저(acoustic tokenizer)를 얻는 것은 일반적으로 직관적이지 않다. 이 도전 과제를 해결하기 위해, 우리는 오디오 트랜스포머(Bidirectional Encoder representation from Audio Transformers, BEATs)를 제안한다. BEATs는 음성 토크나이저와 오디오 SSL 모델이 반복적으로 최적화되는 반복적 오디오 전훈련 프레임워크이다. 첫 번째 반복 과정에서, 무작위 투영(random projection)을 음성 토크나이저로 사용하여 마스크 및 레이블 예측 방식으로 오디오 SSL 모델을 훈련한다. 이후, 사전 훈련되거나 미세조정된 오디오 SSL 모델로부터 의미 지식을 흡수하여 다음 반복을 위한 음성 토크나이저를 훈련한다. 이러한 반복 과정을 통해 음성 토크나이저와 오디오 SSL 모델 간의 상호 촉진 효과를 기대한다. 실험 결과는 제안한 음성 토크나이저가 풍부한 오디오 의미를 갖는 이산 레이블을 생성할 수 있음을 보여주며, 다양한 오디오 분류 벤치마크에서 최고 성능을 달성함을 입증한다. 특히, 외부 데이터를 전혀 사용하지 않고 오디오 전용 모델로서 AudioSet-2M에서 새로운 최고 성능(mAP 50.6%)을 기록하였으며, ESC-50에서는 98.1%의 정확도를 달성하였다. 코드 및 사전 훈련된 모델은 https://aka.ms/beats 에서 공개되어 있다.