2달 전

SampleRNN: 무조건적인 엔드투엔드 신경망 오디오 생성 모델

Soroush Mehri; Kundan Kumar; Ishaan Gulrajani; Rithesh Kumar; Shubham Jain; Jose Sotelo; Aaron Courville; Yoshua Bengio

초록

본 논문에서는 시간 순서에 관계없이 오디오 샘플을 하나씩 생성하는 새로운 모델을 제안합니다. 우리는 메모리가 없는 모듈인 자기회귀 다층 퍼셉트론과 상태를 유지하는 순환 신경망을 계층적 구조로 결합한 모델이 세 가지 다른 특성을 가진 데이터셋에서 매우 긴 시간 범위에 걸친 시퀀스의 변동 원인을 포착할 수 있음을 보여줍니다. 생성된 샘플에 대한 인간 평가는 우리의 모델이 경쟁 모델보다 우수하다는 것을 나타냅니다. 또한, 각 구성 요소가 전시된 성능에 어떻게 기여하는지 설명합니다.