2달 전

마스킹 모델링 듀오: 보편적인 오디오 사전 학습 프레임워크로의 진전

Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino
마스킹 모델링 듀오: 보편적인 오디오 사전 학습 프레임워크로의 진전
초록

자기 감독 학습(SSL)에서 마스킹 예측을 사용하여 일반 목적 오디오 표현에 큰 발전이 이루어졌습니다. 본 연구에서는 마스킹 예측 SSL의 개선된 방법인 마스킹 모델링 듀오(Masked Modeling Duo, M2D)를 제안합니다. M2D는 마스킹된 입력 신호의 표현을 예측하여 이를 훈련 신호로 사용하는 방식으로 학습합니다. 기존 방법과 달리, M2D는 단지 마스킹된 부분만 인코딩하여 훈련 신호를 얻으며, 이는 M2D 내의 두 네트워크가 입력을 모델링하도록 유도합니다. M2D가 일반 목적 오디오 표현을 개선함에 따라, 산업 및 의료 분야와 같은 실제 응용 분야에서는 전문적인 표현이 필수적입니다. 이러한 분야에서 자주 비밀 유지와 소유권이 요구되는 데이터는 크기가 제한적이며, 사전 훈련 데이터셋과 다른 분포를 가지고 있습니다. 따라서, 우리는 특정 응용 X를 위한 M2D 확장 버전인 M2D-X를 제안합니다. M2D-X는 M2D와 추가적인 작업 및 배경 노이즈를 입력으로 사용하여 전문적인 표현의 사전 훈련을 가능하게 합니다. 추가적인 작업은 다양한 응용 분야에 맞게 설정할 수 있으며, 배경 노이즈는 작은 데이터에서도 학습할 수 있도록 도움을 주고, 노이즈 제거 작업을 형성하여 표현의 견고성을 높입니다. 이러한 설계 선택 덕분에 M2D-X는 다양한 응용 요구사항에 특화된 표현을 학습할 수 있을 것입니다. 우리의 실험 결과는 일반 목적 오디오 표현뿐만 아니라 경쟁력 있는 AudioSet 및 음성 영역, 그리고 소규모 의료 작업에서 최상위 성능을 달성함으로써, 우리의 모델이 보편적인 오디오 사전 훈련 프레임워크로서 활용될 잠재력을 입증하였습니다. 우리의 코드는 미래 연구를 위해 온라인에서 이용 가능하며, 다음 링크에서 확인하실 수 있습니다: https://github.com/nttcslab/m2d

마스킹 모델링 듀오: 보편적인 오디오 사전 학습 프레임워크로의 진전 | 최신 연구 논문 | HyperAI초신경