
자기 지도 학습(Self-Supervised Learning, SSL)은 오디오 표현을 학습하는 데 있어 인기 있는 접근 방식으로 부상하고 있습니다. 오디오 자기 지도 사전 학습의 주요 목표 중 하나는 클립 수준과 프레임 수준의 하위 작업에 지식을 전달하는 것입니다. 프레임 수준 작업은 세밀한 음향 장면/이벤트 이해에 중요하지만, 이전 연구들은 주로 클립 수준의 하위 작업에서 평가되었습니다. 클립 수준과 프레임 수준 작업 모두를 해결하기 위해, 본 논문에서는 클립 수준 버전(ATST-Clip)과 프레임 수준 버전(ATST-Frame)을 포함하는 오디오 티처-스튜던트 트랜스포머(Audio Teacher-Student Transformer, ATST)를 제안합니다. 두 방법 모두 트랜스포머 인코더와 티처-스튜던트 학습 방식을 사용합니다. 우리는 ATST-Clip와 ATST-Frame의 뷰 생성 전략을 신중하게 설계했습니다. 구체적으로, ATST-Clip는 세그먼트별 데이터 증강(segment-wise data augmentations)을 사용하며, ATST-Frame는 프레임별 데이터 증강(frame-wise data augmentations)과 마스킹(masking)을 통합합니다. 실험 결과, 우리의 ATST-Frame 모델은 대부분의 클립 수준 및 프레임 수준 하위 작업에서 최고 성능(state-of-the-art, SOTA)을 달성하였습니다. 특히, 프레임 수준 소리 이벤트 검출 작업에서 다른 모델들보다 크게 우수한 성능을 보였습니다. 또한, 지식 증류(knowledge distillation)를 통해 두 모델을 결합하면 성능이 더욱 향상될 수 있음을 확인하였습니다. 우리의 코드는 온라인으로 제공됩니다.