2달 전

Wave-U-Net을 이용한 개선된 음성 향상

Craig Macartney; Tillman Weyde
Wave-U-Net을 이용한 개선된 음성 향상
초록

우리는 음성 향상에 Wave-U-Net 구조를 사용하는 연구를 수행하였습니다. 이 모델은 Stoller 등이 음악의 보컬과 악기 분리를 위해 소개한 것입니다. 이 오디오 소스 분리의 엔드투엔드 학습 방법은 시간 영역에서 직접 작동하여 위상 정보의 통합 모델링을 허용하고, 큰 시간적 맥락을 고려할 수 있습니다. 우리의 실험 결과는 제안된 방법이 Voice Bank 코퍼스(VCTK) 데이터셋에서 음성 향상 작업에 있어 최신 기술보다 PESQ, CSIG, CBAK, COVL 및 SSNR 등의 여러 지표를 개선함을 보여줍니다. 우리는 음악에서 노래 보컬 분리를 위한 원래 시스템과 비교하여 음성 향상을 위해 감소된 숨겨진 레이어 수가 충분하다는 것을 발견하였습니다. 우리는 이러한 초기 결과가 시간 영역에서의 음성 향상을 더 깊이 탐구하는 데 대한 긍정적인 신호로 보고 있으며, 이를 음성 인식 시스템의 전처리 단계로서도 활용할 계획입니다.