15일 전

SSLAM: 다성분 음향 환경에서 자기지도 학습 모델을 음성 혼합을 통해 개선하기

{Philip J B Jackson, Muhammad Awais, Armin Mustafa, Sara Atito, Tony Alex}
초록

자기지도형 사전 훈련 음성 네트워크는 다중 모달 대규모 언어 모델을 포함한 실제 시스템에서 광범위하게 채택되고 있다. 이러한 네트워크는 보통 사전 훈련 과정을 통해 실제 음성 데이터를 충분히 다룰 수 있는 능력을 갖췄다는 가정 하에 고정된 상태(frozen state)로 활용된다. 그러나 중요한 질문이 남아 있다. 실제 환경에서는 음성이 일반적으로 다중 소스가 겹쳐진 복합적인 다음성(polyphonic) 특성을 지니고 있는데, 이러한 조건에서 이러한 모델이 실제로 얼마나 잘 작동하는가? 현재의 음성 자기지도형 학습(SSL) 기법들은 주로 환경 음향이나 음성과 같은 단음성(monophonic) 음성 데이터로 구성된 데이터셋에서 평가되며, 이로 인해 SSL 모델이 자연적인 상황에서 흔히 나타나는 다음성 음성에 대해 얼마나 잘 일반화하는지에 대한 연구는 여전히 부족한 실정이다. 이러한 한계는 SSL 모델이 더 현실적인 음성 환경에서 실용적으로 얼마나 견고한 성능을 발휘할 수 있는지에 대한 우려를 낳고 있다. 이 문제를 해결하기 위해 우리는 다음성 음성 데이터로부터의 자기지도형 학습(Self-Supervised Learning from Audio Mixtures, SSLAM)이라는 새로운 접근 방식을 제안한다. 이는 단음성 데이터에서의 우수한 성능을 유지하면서도, 다음성 음성 데이터로부터의 학습 능력을 향상시키는 것을 목표로 한다. 우리는 주로 단음성 데이터로 구성된 표준 음성 SSL 벤치마크 데이터셋에서 SSLAM을 철저히 평가하고, 다양한 고품질의 공개된 다음성 음성 데이터셋을 활용해 최신 기술(SOTA) 방법들과 포괄적인 비교 분석을 수행했다. 결과적으로 SSLAM은 다음성 음성에서의 모델 성능을 향상시키는 동시에, 기존 표준 음성 SSL 벤치마크에서의 성능을 유지하거나 초과함으로써 뛰어난 성능을 보였다. 특히 AudioSet-2M(AS-2M)에서 최대 3.9%의 성능 향상을 기록하며 평균 정밀도(mAP) 50.2를 달성했다. 다음성 데이터셋에서는 선형 평가 및 미세 조정(fine-tuning) 모두에서 새로운 SOTA 성능을 기록하며, mAP 기준 최대 9.1%의 향상률을 달성했다. 이러한 결과는 SSLAM이 다음성 및 단음성 환경 모두에서 효과적임을 입증하며, 음성 SSL 모델의 전반적인 성능을 크게 향상시킨다는 것을 보여준다.

SSLAM: 다성분 음향 환경에서 자기지도 학습 모델을 음성 혼합을 통해 개선하기 | 최신 연구 논문 | HyperAI초신경