17일 전

SE-MelGAN -- 발화자 무관 빠른 음성 개선

Luka Chkhetiani, Levan Bejanidze
SE-MelGAN -- 발화자 무관 빠른 음성 개선
초록

음성 합성 분야에서 최근 Generative Adversarial Networks(GAN)의 발전[3],[2]은 멜스펙트로그램(mel-spectrogram)에서 고품질의 일관성 있는 웨이브포맷 생성을 위한 GAN[8]의 신뢰성 있는 학습이 가능함을 보여주었다. 본 연구에서는 MelGAN[3]이 음성 특징을 학습하는 데 있어서 갖는 강건성(robustness)을 모델 수정 없이 음성 강화(speech enhancement) 및 노이즈 제거(noise reduction) 분야로 전이할 수 있음을 제안한다. 제안하는 방법은 다중 화자 음성 데이터셋에 대해 일반화 가능하며, 추론 과정에서 미리 경험하지 못한 배경 노이즈에도 강건하게 대응할 수 있다. 또한, 본 방법에 대해 배치 크기(batch size)를 증가시키면 단순히 더 나은 음성 결과를 얻는 것뿐만 아니라, 다중 화자 데이터셋에 대한 일반화가 용이해지고 수렴 속도가 빨라짐을 보여준다. 더불어, 기존 최고 성능의 GAN 기반 음성 강화 방법인 SEGAN[5]보다 두 가지 측면에서 우수한 성능을 보였다. 첫째, 음성 품질 측면에서, 둘째, 처리 속도 측면에서이다. 제안된 방법은 하드웨어 최적화 없이도 GPU에서는 실시간 대비 100배 이상 빠른 속도로, CPU에서는 실시간 대비 2배 이상 빠른 속도로 실행 가능하며, MelGAN[3]의 속도 수준에서 작동한다.

SE-MelGAN -- 발화자 무관 빠른 음성 개선 | 최신 연구 논문 | HyperAI초신경