17일 전

RemixIT: 부트스트랩된 리믹싱을 통한 음성 강화 모델의 지속적 자기학습

Efthymios Tzinis, Yossi Adi, Vamsi Krishna Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar
RemixIT: 부트스트랩된 리믹싱을 통한 음성 강화 모델의 지속적 자기학습
초록

우리는 단일한 도메인 내 음성 또는 노이즈 웨이브폼 없이도 음성 강화 모델을 훈련할 수 있는 간단하면서도 효과적인 자기지도 학습 방법인 RemixIT을 제안한다. 기존의 방법들은 정제된 도메인 내 타겟 신호에 의존하기 때문에 훈련 샘플과 테스트 샘플 간의 도메인 불일치에 매우 민감한 한계를 가지고 있다. 반면, RemixIT은 도메인 외부 데이터로 사전 훈련된 교사 모델이 도메인 내 혼합 신호에 대해 추정된 가상의 타겟 신호(퍼지 타겟 신호)를 생성하는 연속적인 자기지도 학습 프레임워크에 기반한다. 이후, 추정된 정제된 신호와 노이즈 신호를 무작위로 재배열하고 재혼합함으로써 새로운 부트스트랩된 혼합 신호와 해당하는 가상 타겟을 생성하며, 이를 통해 학습자 네트워크를 훈련한다. 반대로, 교사 모델은 최신 학습자 모델의 업데이트된 파라미터를 활용하여 주기적으로 자신의 추정치를 정교화한다. 다양한 음성 강화 데이터셋과 과제에 대한 실험 결과는 본 방법이 기존 접근법보다 우수함을 입증할 뿐만 아니라, RemixIT이 어떤 분리 모델과도 결합 가능하며, 반지도 및 무지도 학습 기반 도메인 적응 과제에 일반적으로 적용될 수 있음을 보여준다. 분석과 실험적 증거를 통해 본 연구는 자기지도 학습 프로세스 내부의 작동 메커니즘을 밝히며, 학습자 모델이 심각하게 저하된 가상 타겟을 관찰하면서도 지속적으로 성능을 향상시킬 수 있음을 시사한다.