2달 전

대조적 학습을 통한 일반 목적 오디오 표현의 학습

Aaqib Saeed; David Grangier; Neil Zeghidour
대조적 학습을 통한 일반 목적 오디오 표현의 학습
초록

우리는 오디오의 일반적인 표현을 학습하기 위한 자기 감독 사전 학습 방법인 COLA를 소개합니다. 이 접근 방식은 대조적 학습(contrastive learning)에 기반하여, 동일한 녹음에서 추출된 오디오 세그먼트 간에는 높은 유사성을, 다른 녹음에서 추출된 세그먼트 간에는 낮은 유사성을 부여하도록 표현을 학습합니다. 우리는 컴퓨터 비전과 강화 학습 분야에서 최근 이루어진 대조적 학습의 발전을 바탕으로, 가벼우면서도 구현이 쉬운 오디오의 자기 감독 모델을 설계하였습니다. 대규모 Audioset 데이터베이스에서 임베딩을 사전 학습하고, 이를 음성, 음악, 동물 소리, 그리고 음향 장면 등 9가지 다양한 분류 작업으로 전이 시켰습니다. 실험 결과, 본 방법론이 단순함에도 불구하고 이전의 자기 감독 시스템들보다 크게 우수한 성능을 보임을 확인하였습니다. 또한, 주요 설계 선택사항들을 식별하기 위해 제거 실험(ablation studies)을 수행하였으며, COLA 모델의 사전 학습 및 미세 조정(fine-tuning)을 위한 라이브러리를 공개하였습니다.