16일 전

EVA-GAN: 확장 가능한 생성적 적대 신경망을 통한 다각적 오디오 생성 향상

Shijia Liao, Shiyi Lan, Arun George Zachariah
EVA-GAN: 확장 가능한 생성적 적대 신경망을 통한 다각적 오디오 생성 향상
초록

대규모 모델의 등장은 머신러닝의 새로운 시대를 열었으며, 방대한 데이터셋을 활용하여 복잡한 패턴을 포착하고 통합함으로써 기존의 소규모 모델을 크게 능가한다. 그러나 이러한 발전에도 불구하고, 특히 음성 생성 분야에서의 스케일링에 대한 탐구는 여전히 제한적이며, 이전의 연구들은 고음질(HiFi) 44.1kHz 영역까지 확장되지 못했고, 주파수 영역에서 스펙트럼 불연속성과 흐림 현상이 발생할 뿐만 아니라, 도메인 외 데이터에 대한 강건성(로버스트성)이 부족했다. 이러한 제약은 음악 및 노래 생성을 포함한 다양한 사용 사례에 모델의 적용을 제한하고 있다. 본 연구에서는 확장 가능한 생성적 적대 신경망(Scalable Generative Adversarial Networks)을 기반으로 한 고도화된 다양한 음성 생성 기법인 EVA-GAN(Efficient and Versatile Audio generation via Scalable GANs)을 제안한다. EVA-GAN은 기존 최고 수준의 성능을 크게 능가하며, 스펙트럼 및 고주파 영역 재구성 능력과 도메인 외 데이터에 대한 강건성 측면에서 획기적인 개선을 이뤄냈다. 이를 통해 36,000시간에 달하는 44.1kHz 고음질 오디오 데이터셋을 활용하고, 맥락 인지 모듈(context-aware module), 인간-인-더-루프(HTL, Human-In-The-Loop) 아티팩트 측정 툴킷, 약 2억 개의 파라미터 규모로 확장된 모델을 도입함으로써 고음질 오디오 생성이 가능해졌다. 본 연구의 성과는 https://double-blind-eva-gan.cc 에서 시연할 수 있다.

EVA-GAN: 확장 가능한 생성적 적대 신경망을 통한 다각적 오디오 생성 향상 | 최신 연구 논문 | HyperAI초신경