11일 전

BigVSAN: 슬라이싱 적대망을 통한 GAN 기반 신경 음성합성기의 성능 향상

Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji
BigVSAN: 슬라이싱 적대망을 통한 GAN 기반 신경 음성합성기의 성능 향상
초록

생성적 적대 신경망(GAN) 기반의 보이스코더는 실시간보다 빠른 속도로 고음질 오디오 웨이브폼을 합성할 수 있다는 장점으로 인해 집중적으로 연구되어 왔다. 그러나 기존 연구에서 대부분의 GAN이 특징 공간에서 실제 데이터와 가짜 데이터를 구분하는 최적의 투영(projection)을 도출하지 못한다는 문제가 보고된 바 있다. 기존 문헌에서는, 최적의 투영을 찾을 수 있는 개선된 GAN 학습 프레임워크인 슬라이싱 적대 신경망(Slicing Adversarial Network, SAN)이 이미지 생성 작업에서 효과적임이 입증된 바 있다. 본 논문에서는 SAN이 보이스코딩 작업에 적용되었을 때의 효과성을 탐구한다. 이를 위해, 대부분의 GAN 기반 보이스코더가 채택하고 있는 최소제곱 GAN(Least-Squares GAN)의 구조를 수정하는 방안을 제안하여, 손실 함수가 SAN의 요구 조건을 만족하도록 구성한다. 실험을 통해 SAN이 BigVGAN을 포함한 다양한 GAN 기반 보이스코더의 성능을 소규모 수정만으로 향상시킬 수 있음을 입증하였다. 본 연구의 코드는 https://github.com/sony/bigvsan 에 공개되어 있다.

BigVSAN: 슬라이싱 적대망을 통한 GAN 기반 신경 음성합성기의 성능 향상 | 최신 연구 논문 | HyperAI초신경