15일 전

다양한 형식을 통한 음성 표현의 대조 학습

Luyu Wang, Aaron van den Oord
다양한 형식을 통한 음성 표현의 대조 학습
초록

최근의 연구 동향은 단일 모달 기반 방법에 비해 다중 모달 훈련이 더 우수한 성능을 제공함을 시사하고 있다. 그러나 본 연구에서는 단일 모달 내에서도 다양한 형식을 활용한 훈련을 통해 유사한 성능 향상을 달성할 수 있음을 발견하였다. 특히, 원시 오디오와 그 주파수 영역 표현 간의 일치를 극대화함으로써 오디오 표현을 학습하는 대조 학습(contrastive learning) 프레임워크를 활용하여 연구를 진행하였다. 그 결과, 단일 형식 기반 접근법에 비해 다중 형식 전략을 사용했을 때 유의미한 성능 향상이 나타났다. 더불어, 하류 작업인 AudioSet 및 ESC-50 분류 과제에서 본 연구의 오디오 전용 접근법은 평균 정밀도(mean average precision) 0.376, 정확도(accuracy) 90.5%를 기록하며 각각 새로운 최고 성능(SOTA)을 달성하였다.

다양한 형식을 통한 음성 표현의 대조 학습 | 최신 연구 논문 | HyperAI초신경