17일 전

MT4SSL: 다중 타깃 통합을 통한 자기지도 학습 음성 표현 학습 강화

Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
MT4SSL: 다중 타깃 통합을 통한 자기지도 학습 음성 표현 학습 강화
초록

본 논문에서는 자기지도 학습 음성 모델에 대한 새로운 관점을 제시하며, 학습 타겟이 어떻게 획득되는지를 중심으로 접근한다. 우리는 타겟 추출기를 일반화하여 오프라인 타겟 추출기(Off-TE)와 온라인 타겟 추출기(On-TE)로 구분한다. 이를 바탕으로, 다중 태스크 학습 프레임워크인 MT4SSL(Multi-Target Integration for Boosting Self-Supervised Speech Representation Learning)을 제안한다. MT4SSL은 오프라인 타겟 추출기로 K-means 알고리즘을, 온라인 타겟 추출기로 기울기 전파가 없는 교사 네트워크를 각각 활용한다. 제안한 모델은 LibriSpeech 벤치마크에서 기존 자기지도 학습 방법들을 비약적인 성능 차이로 능가하며, 더 적은 데이터로도 최고 성능을 기록한 모델들과 비슷하거나 더 우수한 성능을 보였다. 또한, 오프라인 타겟 추출기와 온라인 타겟 추출기를 동시에 사용할 경우 사전 학습 단계에서 보다 우수한 수렴 성능을 달성함을 확인하였다. 효과성과 효율성 측면에서 본 연구는 자기지도 학습 음성 모델에 대한 다중 태스크 학습 접근이 매우 유망한 방향임을 시사한다.

MT4SSL: 다중 타깃 통합을 통한 자기지도 학습 음성 표현 학습 강화 | 최신 연구 논문 | HyperAI초신경