15일 전

M2D-CLAP: 마스킹 모델링 두개가 CLAP과 만남으로써 일반 목적의 오디오-언어 표현 학습하기

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto
M2D-CLAP: 마스킹 모델링 두개가 CLAP과 만남으로써 일반 목적의 오디오-언어 표현 학습하기
초록

대조적 언어-음성 사전학습(Contrastive Language-Audio Pre-training, CLAP)은 음성에 대한 제로샷(Zero-shot, ZS) 추론을 가능하게 하며, 여러 분류 과제에서 유망한 성능을 보여주고 있다. 그러나 제로샷이 적용되지 않는 많은 과제(예: 회귀 문제)에서는 여전히 전통적인 음성 표현 방식이 필수적이다. 본 연구에서는 제로샷 추론과 전이학습 모두에서 우수한 성능을 발휘할 수 있는 보편적인 음성-언어 표현 방식을 탐구한다. 이를 위해 자가지도 학습 기반의 마스킹 모델링 두 가지(Masked Modeling Duo, M2D)와 CLAP을 결합한 새로운 방법인 M2D-CLAP을 제안한다. M2D는 음성 신호를 효과적으로 모델링할 수 있는 표현을 학습하며, CLAP은 이 표현을 텍스트 임베딩과 정렬시킨다. 그 결과, M2D-CLAP은 제로샷 추론과 전이학습 모두에 적합한 다재다능한 표현을 학습하게 된다. 실험 결과, M2D-CLAP은 선형 평가, 미세조정(fine-tuning), 제로샷 분류에서 모두 뛰어난 성능을 보였으며, GTZAN 데이터셋에서 최신 기준(SOTA)으로 75.17%의 정확도를 달성하여 보편적인 음성-언어 표현 방식의 실현 가능성을 입증하였다.

M2D-CLAP: 마스킹 모델링 두개가 CLAP과 만남으로써 일반 목적의 오디오-언어 표현 학습하기 | 최신 연구 논문 | HyperAI초신경