3달 전
자기지도 학습 임베딩의 성능 향상을 통한 음성 강화
Kuo-Hsuan Hung, Szu-wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao, Chii-Wann Lin

초록
자기지도 학습(Self-supervised learning, SSL)을 통한 음성 표현은 여러 후행 작업에서 최첨단(SOTA) 성능을 달성하였다. 그러나 음성 개선(Speech Enhancement, SE) 작업에서는 여전히 개선의 여지가 있다. 본 연구에서는 SSL 임베딩이 음성 신호 재생에 있어 세부 정보가 부족할 수 있다는 문제를 해결하기 위해 교차 도메인 특징을 활용하였다. SSL 표현과 스펙트로그램을 통합함으로써 성능을 크게 향상시킬 수 있었다. 또한, 깨끗한 신호와 노이즈가 섞인 신호 간의 거리(Clean-Noisy distance, CN distance)를 통해 SSL 표현의 노이즈에 대한 내성과 SE 작업에서 각 레이어의 중요도 간의 관계를 탐구하였다. 그 결과, 노이즈에 대한 내성이 낮은 SSL 표현이 더 중요하다는 것을 발견하였다. 또한 VCTK-DEMAND 데이터셋에서의 실험을 통해, SE 모델을 이용한 SSL 표현의 미세 조정(fine-tuning)이 복잡한 네트워크 아키텍처를 도입하지 않고도 PESQ, CSIG, COVL 지표에서 기존의 최첨단 SSL 기반 SE 방법을 능가함을 입증하였다. 이후 실험에서 SSL 임베딩 내 CN 거리가 미세 조정 후 증가하는 경향을 관측하였다. 이러한 결과들은 우리의 예측을 검증하였으며, 향후 SE 관련 SSL 학습 설계에 도움이 될 수 있다.