
초록
자기 감독 학습(Self-Supervised Learning, SSL)은 대량의 라벨이 없는 데이터에서 지식을 학습한 후, 제한된 수의 라벨이 있는 데이터를 사용하여 특정 문제에 해당 지식을 전달하는 방법입니다. SSL은 다양한 분야에서 유망한 결과를 달성하였습니다. 본 연구에서는 세그먼트 단위 일반 오디오 SSL의 문제를 다루고, 새로운 트랜스포머 기반의 선생-학생 SSL 모델인 ATST를 제안합니다. 최근 등장한 선생-학생 베이스라인 방식 위에 트랜스포머 인코더가 개발되어, 사전 학습의 모델링 능력을 크게 향상시켰습니다. 또한, 트랜스포머의 능력을 최대한 활용할 수 있는 새로운 양적 쌍 생성 전략이 설계되었습니다. 광범위한 실험을 수행하였으며, 제안된 모델은 거의 모든 하류 작업에서 새로운 최신 성능(SOTA) 결과를 달성하였습니다.